CoDeinE: artificial text COrpus DEsIgNed Ethically

Obtention :

Date de fin :

ANR

DFG

JST

DFKI

Riken ; NII; NAIST;

LISN, CNRS, Université Paris-Saclay

A. Névéol

L'apprentissage automatique est un levier important des technologies du langage qui nécessite des corpus annotés pour entraîner et évaluer des algorithmes. Le projet CoDeinE propose de pallier au manque de corpus partageables dans des domaines sensibles (santé, finance, …). L'idée clé du projet est d'utiliser des corpus confidentiels pour générer automatiquement des textes synthétiques anonymes capables d'émuler des documents réels du point de vue de leurs caractéristiques linguistiques. Le projet se positionne dans la thématique du traitement automatique de la langue, mais s'intéresse également à la définition de critères de confidentialité permettant de garantir qu'aucune information confidentielle originale ne se retrouve dans les textes synthétiques générés. Notre cas d'étude sera celui de documents cliniques présents dans les dossiers électroniques patient. Le projet s'appuiera sur la ludification et les sciences participatives pour valider puis annoter les textes synthétisés.