Mulce.org Documentation

Premiers codes sources pour l’anonymisation des interactions en ligne

mercredi 1er février 2012 par Christophe Reffay

Retrouvez ici les premiers codes sources, testés sur le corpus Simuligne, pour transformer systématiquement les graphies représentant des données personnelles ou identifiant les acteurs. Les principes sont exposés dans l’article et les codes sources documentés sont téléchargeables à travers cet article.

Mise à disposition de nos premiers codes sources pour l’anonymisation des interactions en ligne

En bref :
- Quoi ? Source Java pour anonymisation : Programme java (incluant les sources) permettant de réaliser le processus d’anonymisation d’un document (ensemble d’interactions chat/mail/forum) selon une structuration XML spécifique. NB : Ce programme n’est plus maintenu.
- Qui ? (Auteur : E. Gasche) : Ce programme a été développé par le LIUM (Laboratoire d’Informatique de l’Université du Maine) en partenariat avec le LIFC (Laboratoire d’Informatique de l’Université de Franche-Comté) dans le cadre d’une ACI (projet national) « ODIL » (Outils et Didactique pour les Interactions en Ligne). Les principaux contributeurs scientifiques sont C. Reffay (LIFC) et P. Teutsch (LIUM), le développeur (auteur du programme source déposé) étant Emmanuel Gasche (LIUM).
- Destiné à qui ? Des développeurs…
- Pour quoi faire ? …Réutiliser tout ou partie des codes sources pour développer de nouveaux outils d’anonymisation.

Que fait ce programme (Anonymiseur) ?

Le texte ci-après est extrait du rapport de recherche (12p) de 2007 :
Reffay, C. & Teutsch, P. Anonymisation de corpus. Rapport de recherche (12 p.) disponible en ligne. http://edutice.archives-ouvertes.fr/edutice-00158877/fr/

Les questions qui se posent à l’anonymisateur sont les suivantes : quels données existent dans le corpus d’origine, quelles données ne peuvent perdurer, quelles données sont attendues par l’analyste dans le corpus produit ? Deux approches complémentaires permettent de répondre. La première s’appuie sur les modèles de corpus disponibles, la seconde sur la réalité des interventions constituant le corpus.
Conceptuellement, les modèles de situations d’apprentissage existants distinguent les données liées à l’identité de la personne (nom, prénom, surnom, photo), les données liées à ses caractéristiques sociales (sexe, âge, localisation géographique, langue maternelle) et les données liées à son profil d’apprentissage (niveau et compétences en langue cible, parcours et trajet de formation, situation courante). Parmi ces données, seul le premier lot est sujet à modification, les autres peuvent se révéler indispensables pour certaines analyses.

La suite présente le processus d’anonymisation utilisé par ViCoDiLi pour le corpus Simuligne. Ce processus s’appuie sur la définition des données d’identité à protéger, sur une table de correspondance attribuant un masque de remplacement à chaque donnée d’identité, et sur un traitement en plusieurs phases du corpus.
Le processus d’anonymisation proposé s’articule en deux phases s’appuyant chacune sur une base d’informations. En aval, le corpus anonymisé est produit à partir d’un ensemble de correspondances entre les formes d’origine des identités et les formes de remplacement de ces identités. En amont, le propriétaire du corpus s’appuie sur l’ensemble des informations individuelles dont il dispose pour préparer la table de correspondance en tenant compte de ce qu’il connaît des acteurs, du contenu des échanges, et des besoins de l’analyse.
Ce processus permet au propriétaire de conserver le profil complet des acteurs afin de toujours pouvoir recréer le lien vers certaines caractéristiques, de définir la logique des équivalences entre les éléments réels d’identité et leurs pseudonymes, et de définir au besoin des équivalences complémentaires à partir d’expressions repérées dans les échanges. Le principe de conversion entraîne le masquage des noms, prénoms, surnoms et autres diminutifs signalés par l’opérateur en pseudonymes. Le terme « pseudonyme » désigne la forme modifiée de l’identité initiale.

Figure 1. Interface de l'anonymiseur : Fiches & Table de Conversion

L’utilisateur anonymisateur dispose d’une interface de description des correspondances entre identité d’origine et identité modifiée (Figure 1). Le système présente dans un premier temps la liste des intervenants connus du corpus (liste issue de la plateforme de formation en ligne via un fichier XML). L’utilisateur peut compléter cette liste avec les surnoms, diminutifs et formes altérées présentes dans le corpus, permettant ainsi de désigner chacune de ces personnes à partir de la déclinaison de leur identité, ce qui impose de bien connaître le corpus ! Le système signale à l’opérateur les doublons repérés dans la table de correspondance. Ces doublons peuvent correspondre à de réels homonymes d’origine, il est alors recommandé de leur attribuer le même masque afin de maintenir l’ambiguïté d’origine. Les doublons peuvent aussi être fortuits (deux masques identiques pour des données différentes dans le corpus d’origine), le système présente alors les différentes formes utilisées pour que l’opérateur vérifie ses déclarations.
La table de correspondance entre identités d’origine et pseudonymes est accompagnée d’un ensemble de fiches (Figure 1). Chaque fiche contient les caractéristiques réelles de l’acteur de la formation : identité complète, âge, localisation, … Ces informations, uniquement connues du propriétaire, ont pour but de l’aider à choisir un pseudonyme en tenant compte, si besoin, de certaines caractéristiques du profil de l’acteur (rôle, sexe, langue, culture, etc.).
Le processus d’anonymisation en lui-même consiste à appliquer les modifications dans le corpus d’origine (fichier XML) en deux phases : modification des identifiants des acteurs dans les en-têtes des interventions puis modification dans le corps des interventions. Ce processus transforme le contenu sans altérer la structure XML, ce qui permet à ViCoDiLi de visualiser également le nouveau corpus.


Accueil | Contact | Plan du site | | icone statistiques visites | info visites 31500

Suivre la vie du site fr  Suivre la vie du site Constitution des corpus  Suivre la vie du site Ethique et droits   ?

Site réalisé avec SPIP 3.1.3 + AHUNTSIC

Creative Commons License