Du

Horaire

Lieu LISN Site Belvédère

STL, Thèses et HDR

Qualité des articles de recherche et modèles de langue neuronaux : applications au domaine biomédical

Thèse de Mathieu Laï-King, sous la direction de Patrick PAROUBEK et Thierry HAMON

Orateur : Mathieu Laï-King

Jury

  • Iana ATANASSOVA, Maîtresse de conférences, HDR, Université de Franche-Comté (rapporteure)
  • Thierry CHARNOIS, Professeur, Sorbonne Université (rapporteur)​​
  • Nona NADERI, Professeure, Université Paris-Saclay​ (examinatrice)
  • Xavier TANNIER, Professeur, INSERM & Sorbonne Université (examinateur)

Résumé

La qualité des articles de recherche en médecine est importante, elle permet par exemple d’assurer une prise de décisions cliniques correctes par les médecins. Cependant, l’augmentation du nombre d’articles publiés rend l’évaluation de cette qualité par des experts difficile. Ainsi, l’utilisation de méthode de traitement automatique des langues (TALTraitement Automatique des langues) peut s’avérer utile pour les assister. Cette qualité peut également être un enjeu pour l’apprentissage des modèles utilisés en TALTraitement Automatique des langues pour le domaine biomédical, car ils sont souvent entraînés sur des corpus d’articles de recherche. La majorité des modèles utilisés pour les tâches biomédicales sont des modèles de langue neuronaux. Ainsi, nous nous intéressons dans cette thèse à la détection automatique de problèmes de qualité dans les articles à l’aide de modèles neuronaux, ainsi qu’à la sélection de données pour l’entraînement de ces modèles. Pour la détection de critères de qualité, nous nous penchons particulièrement sur les articles de recherche rapportant des essais cliniques. Nous tentons d’identifier des problèmes n’étant pas été explorés auparavant ou étant explorés partiellement : la cohérence entre un article et le registre associé, ainsi que la complétude de l’article. Pour la cohérence des articles nous affinons des encodeurs bidirectionnels (du domaine général et adaptés au domaine médical) sur des corpus spécifiques aux tâches considérées et développons une interface graphique pour aider les experts du domaine à accéder et visualiser nos méthodes. Ensuite, pour détecter la complétude, nous utilisons des modèles autorégressifs en reformulant la tâche d’évaluation de critères de qualité en tant que tâche de question réponse et en tirant parti des méthodes d’apprentissage en contexte, ces méthodes nous permettent d’obtenir une exactitude élevée sur la tâche. Enfin, nous sélectionnons des données dans un corpus d’articles de recherche biomédicale afin de pré-entraîner un modèle de langue de type encodeur bidirectionnel, en utilisant un critère de confiance : l’impact des journaux, montrant que ce type de sélection ne suffit pas pour une amélioration importante durant le pré-entraînement.

Lieu de l'événement