Mulce.org Documentation

Corpus distinguable, corpus global

lundi 12 avril 2010 par Christophe Reffay, Thierry CHANIER

Un corpus d’apprentissage correspondant à une expérience de formation est un méga corpus comportant une trop grande quantité de données pour pouvoir offrir des objets aisément analysables. En outre, ces données sont de nature hétérogène et relèvent de phénomènes complexes et dynamiques.

Il devient alors nécessaire de travailler à partir d’unité intermédiaire, d’où la constitution de corpus distinguables (Reffay et al., 2008 : s 2.6). En partant d’un corpus d’apprentissage, que l’on qualifiera de corpus global, il est possible de produire des corpus distinguables, chacun correspondant au grain habituellement retenu par un chercheur pour y accomplir une analyse sur un phénomène précis.

Le corpus distinguable est tout à la fois un sous-corpus du corpus d’apprentissage et un corpus en soi. Son container est de même format que celui d’un corpus global. Au contraire du dernier, il est facilement téléchargeable sur un ordinateur personnel. Le chercheur dispose alors d’un ensemble comportant une description structurée du corpus, contextualisé par rapport au corpus global (sous forme de commentaires libres et d’index précis renvoyant sur chacune des sous-parties d’un corpus global), des outils d’analyse associés et un ensemble de données prêtes à l’analyse ou contenant déjà des résultats d’analyse.

Enfin des liens relient un corpus distinguable à son corpus global et, le cas échéant, à d’autres corpus distinguables pour des analyses inter-corpus.

Les corpus distinguables constitués dans Mulce répondent à trois objectifs variés, que nous distinguerons en trois types de corpus distinguables :

-  associer publication scientifique et données (type 1) ;

-  rassembler des données prêtes à l’analyse avec mise en forme pour outils/logiciels libres (type 2) ;

-  partager des analyses avec des outils associés (type 3).

Le lecteur trouvera sur le site de banque de corpus Mulce des exemples de ces différents types de corpus.


Accueil | Contact | Plan du site | | icone statistiques visites | info visites 31087

Suivre la vie du site fr  Suivre la vie du site Constitution des corpus   ?

Site réalisé avec SPIP 3.1.3 + AHUNTSIC

Creative Commons License