Une nouvelle méthode systématique d’anonymisation
Dans notre article de 21 pages en français (dont 3 pages d’annexes et 2 de bibliographie), Christophe Reffay, François-Marie Blondel et Emmanuel Giguet présentons une nouvelle méthode (automatisable) pour anonymiser un corpus éventuellement multilingue.
Résumé :
Dans le champ de l’analyse des interactions textuelles, les chercheurs désirant partager leurs corpus font face à de grandes difficultés pour en éliminer les marques d’identification des personnes physiques. La loi européenne suggère pourtant que ces marques soient soigneusement retirées avant toute publication. Dans la suite des outils de la plateforme Calico dédiée à l’analyse des interactions en ligne, nous proposons ici un procédé interactif d’anonymisation systématique, fonctionnant sans dictionnaire a priori et donc applicable à toute langue. Ce procédé a été appliqué à un premier corpus plurilingue issu de Galanet. Cet article souligne les difficultés de l’anonymisation et présente les premiers résultats de cette expérience. Au-delà de la transformation elle-même, nous proposons deux stratégies de fouille afin de détecter de nouvelles graphies pouvant révéler des données personnelles.
Christophe Reffay
Articles de cet auteur
- Our first anonymizer source code now available
- Premiers codes sources pour l’anonymisation des interactions en ligne
- 5/11, EIAH 2011, Atelier "Partager des données d’observation pour la recherche en EIAH traces d’activité d’apprentissage"
- CSCL 2011 Analyse de la cohésion de groupe à partir de données Mulce
- CSCL 2011 "Productive re-use of CSCL data and analytic tools to provide a new perspective on group cohesion"
- [...]