Mulce.org Documentation

Dépôt de corpus (version détaillée)

mardi 12 octobre 2010 par Thierry CHANIER

Le dépôt d’un nouveau corpus peut être réalisé rapidement si le corpus est parfaitement structuré et si les informations utiles au dépôt sont disponibles. L’objet de ce document est justement de guider les chercheurs dans la préparation des informations en vue du dépôt de leur corpus dans l’archive Mulce. Pour le dépôt d’un corpus en version simplifiée voir l’article suivant

Ce que couvre l’opération de dépôt

D’un point de vue global, nous considérons que l’opération de dépôt inclut l’ensemble des actions qui rendront visible (via OLAC) et accessible (via Mulce) un corpus déjà structuré. Cette partie détaille ces deux volets de la mise en ligne d’un corpus :

  • Renseigner la base de données Mulce pour rendre possible les différentes opérations sur le corpus (sélection du corpus, visualisation de ses composants, …)
  • Renseigner l’enregistrement (dans le repository Mulce de OLAC) du corpus à déposer : il s’agit ici essentiellement de métadonnées permettant de caractériser ce corpus dans la collection Mulce, au sein de l’archive OLAC. Nous indiquerons l’ensemble des renseignements nécessaires et optionnels de cet enregistrement ainsi que les sources permettant de les structurer techniquement (schémas XSD).

Information pour le serveur de corpus Mulce

Pour réaliser de façon efficace les opérations (sur l’ensemble des corpus de l’archive Mulce), certaines informations (le plus souvent incluses dans le corpus lui-même) doivent être enregistrées (dupliquées) dans la base de données. L’interface de la plateforme permet à l’utilisateur de sélectionner les objets selon un ensemble de critères. Il est donc indispensable de renseigner ces critères. Pour se faire rapidement une idée, le plus simple est de regarder la liste des informations données par la fiche (telle que présentée Fig. 1). Cette page s’obtient en accédant à Mulce-pf, onglet consultation, lien sélection des objets (bouton envoyer), puis, dans la liste (Fig. 7), lien : Parcourir son contenu.


Figure. 1 : Fiche générale d’un objet (ici : corpus distinguable)

Les barres de couleur grenat (foncée) précèdent chaque ligne qui constitue un critère de sélection des objets, tandis que celles de couleur ocre (plus claire) concernent plutôt les ressources.

  • Identifiant du corpus : Cet identifiant doit être unique dans l’archive Mulce (ex : mce-titan-letec-all). Il sera nécessairement identique à celui défini comme « identifier » dans le manifest XML qui constitue le corpus. Cet identifiant commence nécessairement par un préfixe en 4 parties (signifiantes) et peut être suffixé par une chaîne de caractères. L’ensemble de la chaîne de caractère constituant l’identifiant doit répondre aux exigences de la norme XML (http://www.w3.org/TR/REC-xml/#NT-Name ) et en particulier doit commencer par : ‘-’, ‘.’, ‘•’(#xB7), 0-9, a-z, A-Z) et exclue les espaces, tabulations et virgules. Nous utilisons ‘.’ ou ‘_’ pour séparer les parties de l’identifiant : « ___ »
    •  : exemples : mce (pour les corpus issus du projet Mulce), drexel (pour le corpus virtual math forum de la Drexel University),
    •  : exemples : (simu pour Simuligne), vmt2006 (pour le corpus virtual math forum en 2006 de la Drexel University),
    •  : « all » (= « letec ») dans le cas d’un corpus global (aussi appelé « Learning and Teaching Corpus »), ld pour un scénario pédagogique seul, toute autre chaîne de caractères permettant de circonscrire l’objet du corpus : une séance « R6_lobby_s102 », une analyse particulière « sna », etc.
    •  : « all » si le corpus est complet, sinon, donner en quelques caractères ce qui limite l’étendue du corpus. Exemples : « aqui » pour un corpus limité aux interactions d’un groupe (ex ;Aquitania), « fora » s’il est limité aux interactions en forum de discussion, etc.
  • Type de corpus :
    • Corpus global (Whole corpus or Letec) : Ce type correspond à l’enregistrement d’un corpus complet (sans analyse). On devrait y trouver les composants suivants : RIC (Right and Informed Consent : licence), LD (Learning Design : scénario pédagogique), RP (Research Protocol : questions de recherche et protocole de recueil), SID (Structured Interaction Data : traces d’interactions situées (acteurs, lieux, etc.) et structurées en espaces de travail).
    • Scénario pédagogique (Teaching and Learning design) : le corpus/objet ne contient que le scénario pédagogique prescrit (ou protocole de recherche ?). Il ne contient pas de trace de scénario joué, pas d’analyses, pas de questions de droit liées aux acteurs (pas d’acteurs).
      o Corpus distinguable (Selected part of a Corpus) : Correspond typiquement à un morceau de corpus choisi pour réaliser une analyse. Il peut contenir toutes les parties d’un corpus, avec un composant analyse en plus. Selon le genre (micro/macro), l’analyse peut ne porter que sur une partie des traces d’interactions. Dans le cas d’interactions synchrones enregistrées (audio/vidéo) on utilise aussi cette forme pour associer l’enregistrement (audio/vidéo) et ainsi restreindre le SID aux seules interactions de cette « unité » (ex : séance).
  • Domaine d’apprentissage (Learning and Teaching domain) : Exemples : FLE (French), Anglais sur objectifs spécifiques (English for ICT), … Cette liste sera étendue si nécessaire au fur et à mesure de l’arrivée des nouveaux corpus. Il faudra cependant donner l’appellation en français et en anglais pour un nouveau domaine.
  • Langue de communication (Language used) : précise dans quelle(s) langues l’essentiel des interactions ont été produites : Exemples : français, anglais, français+anglais. Cette liste sera étendue si nécessaire au fur et à mesure de l’arrivée des nouveaux corpus. Il faudra cependant donner l’appellation en français et en anglais pour une nouvelle langue.
  • Outils d’analyse (Analysis Tools) : en particulier pour les corpus distinguables, permet de préciser le type d’outils d’analyse mis en œuvre pour les analyses déposées. Exemples : Réseaux sociaux ou SNA (Social Network Analysis) Calico (http://woops.crashdump.net/calico/) Tatiana (http://code.google.com/p/tatiana/), etc. Cette liste sera étendue si nécessaire au fur et à mesure de l’arrivée des nouveaux corpus. Il faudra cependant donner suffisamment de précision en français et en anglais pour que ces outils soient accessibles et utilisables par d’autres.
  • Acteur(s) impliqué(s) (Actors) : apprenants/tuteurs/natifs
  • Technologie(s) employée(s) dans la situation d’apprentissage (Fig. 2) :

    Fig. 2 : Exemples de technologies employées pour les interactions

D’autres outils (ex : blog) en cours de spécification seront aussi très prochainement disponibles.

  • Pédagogie (Pedagogical dimension) (Fig. 3) :

    Fig. 3 : Liste des concepts pédagogiques sources qui sous-tendent les
    situations d’apprentissage des corpus recueillis dans l’archive Mulce
  • Modalité d’interaction (Interaction and modalities) (Fig. 4) :

    Fig. 4 : Liste des modalités utilisées

La table ressources

Pour en permettre soit le téléchargement, soit la visualisation, d’autres informations techniques sont nécessaires pour chaque ressource ou composant identifié. Ces informations sont stockées dans la table « ressource » de notre base de données.

NB : un corpus global ou distinguable et un scénario sont aussi des ressources identifiées. Les renseignements ci-après sont donc nécessaires aussi pour ces types d’objets. Mais d’autres ressources peuvent également être décrites ici.

Le genre de « choses » que l’on peut/doit décrire dans les ressources identifiées.

  • Objets décrits (corpus global ou distinguable, scénario pédagogique) : obligatoire ;
  • Un fichier audio/vidéo dont le poids dépasse celui du manifest correspondant ne sera pas inclus dans les fichiers d’un corpus, mais téléchargeable séparément : obligatoire ;
  • Un document complémentaire (exemples : scénario pédagogique seul décrit en IMS-LD, MotPlus, HTML ou dans un simple texte PDF) : facultatif ;
  • Un partie identifiée (au sens ID XML) du manifest du corpus en vue de l’afficher (au format XML). Exemples : licence, memberlist, actors, contributors, platforms, etc. : facultatif.

Bien sûr, si une ressource n’est pas décrite dans la liste, elle ne pourra être ni retrouvée, ni affichée, ni téléchargée.

Eléments permettant de caractériser une ressource téléchargeable/affichable

  • Identifiant : si la ressource correspond à un objet décrit plus haut, ressource et objet doivent avoir le même identifiant.
  • Type : CG – CD – ress-tel – ID correspondant respectivement à Corpus Global (Letec) – Corpus distinguable (Objet LD ou CD) – ressource téléchargeable – Identifiant dans la structure (manifest du corpus XML Mulce).
  • Format : obligatoirement ims-cp/zip pour (CG ou CD) – tous les formats sont possibles pour ress-tel (ex : video/quicktime, motplus, audio/mpeg, application/zip video/avi, etc.) – Un seul possible pour ID : mulce_struct.
  • Corpus Père : identifiant du corpus global (letec) dont est issue la ressource obligatoire. Cas particulier d’un corpus global : son corpus père est lui-même.
  • Description : courte description de la ressource (moins de 255 caractères)
  • Relation : Identifiant de la ressource dont elle dépend directement : Exemple : une ressource (mce-copeas-letec-rp-motplus) représentant une version de LD sera en relation avec le composant LD (mce-copeas-letec-rp). Si c’est un composant (ex : mce-copeas-letec-sid), alors il est en relation directe avec le corpus père (mce-copeas-letec-all). En revanche, si c’est un corpus distinguable (ex : session), alors il ne peut pas avoir de relation (Relation=na). Si c’est une ressource externe, elle est (ex : versions de RP en relation avec RP) ou non (alors Relation = "").
  • Annotation : permet de préciser par exemple pour un corpus si certaines ressources qui s’y rapportent (ex : vidéos) ne sont pas incluses dans le corpus, ou pour une vidéo si elle est commune à différents corpus.
  • Taille : nombre entier de Ko de la ressource (téléchargeable). Cas particulier de ID : La taille à enregistrée peut être 0.
  • URL Téléchargement : Chemin à partir du nom du corpus global et jusqu’à la fin du nom de fichier à télécharger. Cas particulier des ID : ce champ reste vide.
  • URL : Chemin à partir du nom du corpus global et jusqu’au nom du dossier contenant le fichier imsmanifest.xml. Applicable seulement aux objects (CG, CD ou LD). Cas particulier des ID et des ressources externes : ce champ reste vide.

NB : pour les objets corpus (CG, CD), la ressource de téléchargement est un zip construit à la volée. Il contient donc nécessairement exactement les mêmes éléments que ceux présentés à travers la plateforme Mulce.

Organisation des différentes ressources issues d’un corpus

Dans l’archive Mulce, voici les règles qui régissent l’organisation des différentes ressources issues d’un corpus. Une illustration de ces règles est donnée (Fig. 5) :

  • Un dossier principal «  » est créé pour tout corpus de base (expérimentation)
  • «  » contient les dossiers « Corpus_objets » et « ressources_ext » ;
  • « Corpus_objets » contient un dossier par objet (LD, corpus global ou distinguable) ;
  • Un dossier d’objet (LD, corpus global ou distinguable) nommé par son identifiant et qui contient nécessairement :
    • un fichier « imsmanifest.xml » qui décrit au format IMS-CP, l’ensemble du corpus (global ou distinguable) ;
    • un dossier « content » contenant toutes les ressources incluses dans le corpus :
      • Un dossier nommé « documentation » et qui contient obligatoirement le fichier « index.xml » : fiche de description détaillée du corpus (qui n’affiche que certaines métadonnées du corpus global/distinguable).
      • Un dossier par composant (Learning_Design, Instanciation, Research_Protocole, etc.) avec les ressources qui s’y rapportent.
  • Un dossier « ressources_ext » ou « external_resources » qui contient tous les fichiers complémentaires (ex : vidéos) ou alternatifs (LD dans différents formats) téléchargeables concernant l’expérimentation .


Fig. 5 : Organisation des ressources liées à un corpus de base ()

NB : tous les identifiants (ID) se trouvent (a priori) dans le fichier imsmanifest.xml du corpus père (ie : dans le dossier /Corpus_objets/mce--letec-all/). La place des identifiants (éléments de type ID de la liste des ressources identifiées) à l’intérieur un manifeste (Mulce) est illustrée (Fig. 6).


Fig. 6 : Imbrication des éléments référencés dans un manifeste Mulce.

Information pour le repository OLAC

Dès que le corpus a été déposé dans l’archive Mulce et que les utilisateurs peuvent le télécharger ou en visualiser des parties, on procède à l’ajout des métadonnées de l’objet (corpus) concerné dans le répertoire (repository OLAC) de Mulce.

Les métadonnées concernées sont celles de l’élément //.
Vous trouverez un élément exemple ici : http://www.language-archives.org/sample/mulce.org

Ces métadonnées sont indispensables pour retrouver le corpus sur la toile. Elles seront moissonnées et relayées par tous les serveurs du réseau OLAC (compatibles OAI-PMH).


Accueil | Contact | Plan du site | | icone statistiques visites | info visites 31460

Suivre la vie du site fr  Suivre la vie du site Structure des corpus  Suivre la vie du site Dépôt de corpus   ?

Site réalisé avec SPIP 3.1.3 + AHUNTSIC

Creative Commons License