CODEINE – Création éthique de données textuelles artificielles : Synthèse Automatique de documents Hospitaliers

Date de début :

Date de fin :

Budget : 558 771 €

ANR

LIST

CRC

LORIA

Aurelie Neveol

SEME

L'apprentissage automatique est un levier important des technologies du langage nécessitant des corpus annotés pour entraîner et évaluer des modèles. Le projet CoDeinE propose de pallier le manque de corpus partageables dans des domaines sensibles (santé, finance...). Le projet est centré sur la définition de méthodes de génération de paraphrases et leur application à des corpus confidentiels pour produire automatiquement des textes synthétiques anonymes comparables à des documents réels d’un point de vue linguistique. Le projet se positionne dans le champ du traitement automatique de la langue mais englobe aussi la définition de critères de confidentialité garantissant l’absence d’information confidentielle originelle dans les textes synthétiques produits. Notre cas d'étude sera celui de documents cliniques présents dans les dossiers électroniques patient. Le projet s'appuiera sur la ludification et les sciences participatives pour valider puis annoter les textes synthétisés.