Extraction d’Informations à partir des Dossiers Patients Informatisés : Etudes en temporalité, confidentialité et impact environnemental

Orateur : Nesrine Bannour

Ajouter à mon calendrier

Jury

Maxime AMBLARD (Professeur des Universités, Université de Lorraine) : Rapporteur & Examinateur
Timothy MILLER (Assistant Professor, Harvard University, Boston Children’s Hospital) : Rapporteur & Examinateur
Fleur MOUGIN (Professeure des Universités, Université de Bordeaux) : Examinatrice
Fatiha SAIS (Professeure des Universités, Université Paris Saclay) : Examinatrice
Bastien RANCE (Maître de conférences des Universités – Praticien Hospitalier, HEGP, Université Paris Cité) : Co-superviseur
Xavier TANNIER (Professeur des Universités, LIMICS, Sorbonne Université) : Co-superviseur
Aurélie NÉVÉOL (Directrice de Recherche, LISN, CNRS) : Directrice de thèse

Résumé

L’extraction automatique des informations contenues dans les Dossiers Patients Informatisés (DPIs) est cruciale pour améliorer la recherche clinique. Or, la plupart des informations sont sous forme de texte non structuré. La complexité et le caractère confidentiel du texte clinique présente des défis supplémentaires. Par conséquent, le partage de données est difficile dans la pratique et est strictement encadré par des réglementations. Les modèles neuronaux offrent de bons résultats pour l’extraction d’informations. Mais ils nécessitent de grandes quantités de données annotées, qui sont souvent limitées, en particulier pour les langues autres que l’anglais. Ainsi, la performance n’est pas encore adaptée à des applications pratiques. Outre les enjeux de confidentialité, les modèles d’apprentissage profond ont un important impact environnemental. Dans cette thèse, nous proposons des méthodes et des ressources pour la Reconnaissance d’entités nommées (REN) et l’extraction de relations temporelles dans des textes cliniques en français.

Plus précisément, nous proposons une architecture de modèles préservant la confidentialité des données par mimétisme permettant un transfert de connaissances d’un modèle enseignant entraîné sur un corpus privé à un modèle élève. Ce modèle élève pourrait être partagé sans révéler les données sensibles ou le modèle privé construit avec ces données. Notre stratégie offre un bon compromis entre la performance et la préservation de la confidentialité.
Ensuite, nous introduisons une nouvelle représentation des relations temporelles, indépendante des événements et de la tâche d’extraction, qui permet d’identifier des portions de textes homogènes du point de vue temporel et de caractériser la relation entre chaque portion du texte et la date de création du document. Cela rend l’annotation et l’extraction des relations temporelles plus facile et reproductible à travers différents types d’événements, vu qu’aucune définition et extraction préalable des événements n’est requise.
Enfin, nous effectuons une analyse comparative des outils existants de mesure d’empreinte carbone des modèles de TALTraitement Automatique des langues. Nous adoptons un des outils étudiés pour calculer l’empreinte carbone de nos modèles, en considérant que c’est une première étape vers une prise de conscience et un contrôle de leur impact environnemental.

En résumé, nous générons des modèles de REN partageables préservant la confidentialité que les cliniciens peuvent utiliser efficacement. Nous démontrons également que l’extraction de relations temporelles peut être abordée indépendamment du domaine d’application et que de bons résultats peuvent être obtenus en utilisant des données d’oncologie du monde réel.

Publications

Communication dans un congrès

Nesrine Bannour, Xavier Tannier, Bastien Rance, Aurélie Névéol. Positionnement temporel indépendant des évènements : application à des textes cliniques en français. CORIA-TALN 2023 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2023, Paris, France. pp.1-14. ⟨hal-04130201⟩

STL

Année de publication 2023

Disponible en libre accès

Publication HAL
Article dans une revue

Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier, Aurélie Névéol. Privacy-preserving mimic models for clinical named entity recognition in French. Journal of Biomedical Informatics, 2022, 130, pp.104073. ⟨10.1016/j.jbi.2022.104073⟩. ⟨hal-03655039⟩

ILES, STL

Année de publication 2022

Disponible en libre accès

Publication HAL
Communication dans un congrès

Nesrine Bannour, Sahar Ghannay, Aurélie Névéol, Anne-Laure Ligozat. Evaluating the carbon footprint of NLP methods: a survey and analysis of existing tools. EMNLP, Workshop SustaiNLP, Nov 2021, Punta Cana, Dominican Republic. ⟨10.18653/v1/2021.sustainlp-1.2⟩. ⟨hal-03435068⟩

ILES, STL

Année de publication 2021

Disponible en libre accès

Publication HAL
Communication dans un congrès

Nesrine Bannour, Aurélie Névéol, Xavier Tannier, Bastien Rance. Traitement Automatique de la Langue et Intégration de Données pour les Réunions de Concertations Pluridisciplinaires en Oncologie. TALTraitement Automatique des langues & IAIntelligence Artificielle 2021, AfIA; ATALA, Feb 2021, Virtuel – Online, France. ⟨hal-04013495⟩

ILES, STL

Année de publication 2021

Publication HAL
Communication dans un congrès

Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier, Aurélie Névéol. Modèles préservant la confidentialité des données par mimétisme pour la reconnaissance d’entités nommées en français. Journée d’étude sur la robustesse des systemes de TALTraitement Automatique des langues, ATALA, Nov 2022, Paris, France. ⟨hal-04013420⟩

ILES, STL

Année de publication 2022

Disponible en libre accès

Publication HAL

Toutes les publications

Jury

Résumé

Publications Lieu de l'événement

Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier, Aurélie Névéol. Privacy-preserving mimic models for clinical named entity recognition in French. Journal of Biomedical Informatics, 2022, 130, pp.104073. ⟨10.1016/j.jbi.2022.104073⟩. ⟨hal-03655039⟩

Nesrine Bannour, Sahar Ghannay, Aurélie Névéol, Anne-Laure Ligozat. Evaluating the carbon footprint of NLP methods: a survey and analysis of existing tools. EMNLP, Workshop SustaiNLP, Nov 2021, Punta Cana, Dominican Republic. ⟨10.18653/v1/2021.sustainlp-1.2⟩. ⟨hal-03435068⟩

Lieu de l'événement Lieu de l'événement

Publications

Lieu de l'événement