Du

Horaire -

Lieu LISN Site Belvédère

STL, Thèses et HDR

Extraction d’Informations à partir des Dossiers Patients Informatisés : Etudes en temporalité, confidentialité et impact environnemental

Orateur : Nesrine Bannour

Jury

  • Maxime AMBLARD (Professeur des Universités, Université de Lorraine) : Rapporteur & Examinateur
  • Timothy MILLER (Assistant Professor, Harvard University, Boston Children’s Hospital) : Rapporteur & Examinateur
  • Fleur MOUGIN (Professeure des Universités, Université de Bordeaux) : Examinatrice
  • Fatiha SAIS (Professeure des Universités, Université Paris Saclay) : Examinatrice
  • Bastien RANCE (Maître de conférences des Universités – Praticien Hospitalier, HEGP, Université Paris Cité) : Co-superviseur
  • Xavier TANNIER (Professeur des Universités, LIMICS, Sorbonne Université) : Co-superviseur
  • Aurélie NÉVÉOL (Directrice de Recherche, LISN, CNRS) : Directrice de thèse

Résumé

L’extraction automatique des informations contenues dans les Dossiers Patients Informatisés (DPIs) est cruciale pour améliorer la recherche clinique. Or, la plupart des informations sont sous forme de texte non structuré. La complexité et le caractère confidentiel du texte clinique présente des défis supplémentaires. Par conséquent, le partage de données est difficile dans la pratique et est strictement encadré par des réglementations. Les modèles neuronaux offrent de bons résultats pour l’extraction d’informations. Mais ils nécessitent de grandes quantités de données annotées, qui sont souvent limitées, en particulier pour les langues autres que l’anglais. Ainsi, la performance n’est pas encore adaptée à des applications pratiques. Outre les enjeux de confidentialité, les modèles d’apprentissage profond ont un important impact environnemental. Dans cette thèse, nous proposons des méthodes et des ressources pour la Reconnaissance d’entités nommées (REN) et l’extraction de relations temporelles dans des textes cliniques en français.

Plus précisément, nous proposons une architecture de modèles préservant la confidentialité des données par mimétisme permettant un transfert de connaissances d’un modèle enseignant entraîné sur un corpus privé à un modèle élève. Ce modèle élève pourrait être partagé sans révéler les données sensibles ou le modèle privé construit avec ces données. Notre stratégie offre un bon compromis entre la performance et la préservation de la confidentialité.
Ensuite, nous introduisons une nouvelle représentation des relations temporelles, indépendante des événements et de la tâche d’extraction, qui permet d’identifier des portions de textes homogènes du point de vue temporel et de caractériser la relation entre chaque portion du texte et la date de création du document. Cela rend l’annotation et l’extraction des relations temporelles plus facile et reproductible à travers différents types d’événements, vu qu’aucune définition et extraction préalable des événements n’est requise.
Enfin, nous effectuons une analyse comparative des outils existants de mesure d’empreinte carbone des modèles de TALTraitement Automatique des langues. Nous adoptons un des outils étudiés pour calculer l’empreinte carbone de nos modèles, en considérant que c’est une première étape vers une prise de conscience et un contrôle de leur impact environnemental.

En résumé, nous générons des modèles de REN partageables préservant la confidentialité que les cliniciens peuvent utiliser efficacement. Nous démontrons également que l’extraction de relations temporelles peut être abordée indépendamment du domaine d’application et que de bons résultats peuvent être obtenus en utilisant des données d’oncologie du monde réel.

Publications

  • Communication dans un congrès

    Nesrine Bannour, Xavier Tannier, Bastien Rance, Aurélie Névéol. Positionnement temporel indépendant des évènements : application à des textes cliniques en français. 18e Conférence en Recherche d’Information et Applications — 16e Rencontres Jeunes Chercheurs en RI — 30e Conférence sur le Traitement Automatique des Langues Naturelles — 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, Jun 2023, Paris, France. pp.1-14. ⟨hal-04130201⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier, Aurélie Névéol. Privacy-preserving mimic models for clinical named entity recognition in French. Journal of Biomedical Informatics, 2022, 130, pp.104073. ⟨10.1016/j.jbi.2022.104073⟩. ⟨hal-03655039⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Nesrine Bannour, Sahar Ghannay, Aurélie Névéol, Anne-Laure Ligozat. Evaluating the carbon footprint of NLP methods: a survey and analysis of existing tools. EMNLP, Workshop SustaiNLP, Nov 2021, Punta Cana, Dominican Republic. ⟨hal-03435068⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Nesrine Bannour, Aurélie Névéol, Xavier Tannier, Bastien Rance. Traitement Automatique de la Langue et Intégration de Données pour les Réunions de Concertations Pluridisciplinaires en Oncologie. TALTraitement Automatique des langues & IA 2021, AfIA; ATALA, Feb 2021, Virtuel – Online, France. ⟨hal-04013495⟩

    ILES, STL

    Année de publication

  • Communication dans un congrès

    Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier, Aurélie Névéol. Modèles préservant la confidentialité des données par mimétisme pour la reconnaissance d’entités nommées en français. Journée d’étude sur la robustesse des systemes de TALTraitement Automatique des langues, ATALA, Nov 2022, Paris, France. ⟨hal-04013420⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

Lieu de l'événement