Du

Horaire

Lieu LISN Site Belvédère

STL, Thèses et HDR

Extraction d’information clinique : méthodes et ressources pour l’adaptation en domaine

Thèse est co-encadrée par Aurélie NEVEOL, directrice de recherche, CNRS, LISN, et Xavier TANNIER, professeur, Sorbonne Université

Orateur : Marco Naguib

Jury

  • Pascale Sébillot, Professeure des Universités, INSA Rennes, IRISA – Rapporteure
  • Rosy Tsopra, Maîtresse de Conférences des Universités, Praticienne Hospitalière, Université Paris-Cité, AP-HP – Rapporteure
  • Benoît Favre, Professeur des Universités, Aix-Marseille Université, LIS – Examinateur
  • Vincent Guigue, Professeur des Universités, AgroParisTech – Examinateur
  • Antoine Neuraz, Chercheur, Stane – Examinateur

Résumé

Les systèmes de santé modernes produisent quotidiennement d’importants volumes de données cliniques non structurées (des textes comme les comptes rendus d’hospitalisation, lettres de sortie, résultats d’examens), qui sont riches en informations essentielles pour le suivi des patients, la recherche médicale et la santé publique. Toutefois, la diversité linguistique, la complexité sémantique et les contraintes de confidentialité limitent fortement l’exploitation automatique de ces textes, en particulier en langue française. L’extraction d’information clinique à partir de ces documents demeure ainsi un défi majeur, surtout dans un contexte où les corpus annotés sont rares et les protocoles d’évaluation établis ne sont pas toujours applicables et standardisés. Cette thèse se positionne à l’intersection de l’informatique médicale et du traitement automatique des langues (TALTraitement Automatique des langues), et cible spécifiquement les documents cliniques francophones. Elle explore la reconnaissance d’entités nommées (REN) et le résumé automatique de dossier patient en contexte d’urgence. Afin de répondre aux défis méthodologiques, techniques et évaluatifs propres à l’extraction d’information en français, la thèse s’articule autour de quatre axes de recherche : le manque de corpus annotés, l’adaptation des modèles de langues généralistes au domaine clinique, l’évaluation rigoureuse dans des contextes hospitaliers réels, et l’identification des scénarios d’usage adaptés aux grands modèles de langues. Les résultats obtenus montrent que, pour la reconnaissance d’entités cliniques, dans un contexte où il y a peu de corpus annotés disponibles en français, les modèles de langues masquésDéfinition courte Lorem ipsum affinés surpassent nettement les grands modèles génératifs, aussi bien en termes de performance qu’en impact environnemental. L’apprentissage actif appliqué à la sélection d’exemples permet, en outre, de réduire considérablement le coût d’annotation sans perte significative de performance. Concernant le résumé de dossier patient, une approche RAG associant récupération symbolique des passages pertinents et génération automatique par LLM permet d’obtenir des synthèses à la fois cliniquement pertinentes et robustes, contribuant ainsi à une amélioration de l’accessibilité de l’information critique pour la prise en charge rapide des patients. Ces contributions sont évaluées à l’aide de protocoles reproductibles, intégrant des métriques classiques, des analyses humaines qualitatives, et la mesure de l’impact environnemental. Au-delà des avancées méthodologiques, cette thèse invite à une intégration critique, transparente et contextualisée du TALTraitement Automatique des langues dans le domaine médical. Elle souligne les risques d’une confiance excessive envers des systèmes opaques dits « IA », l’importance de la confidentialité des données, les coûts environnementaux et sociétaux du TALTraitement Automatique des langues à grande échelle, et la nécessité d’une gouvernance et d’une documentation rigoureuses pour les applications en santé. Les travaux réalisés ouvrent la voie vers une extraction d’information clinique francophone plus fiable, durable et équitable, avec des perspectives étendues aux langues et contextes dans lesquels peu de corpus annotés sont disponibles.

Contact

Lieu de l'événement