Du

Horaire -

STL, Thèses et HDR

Traitement Automatique des Langues pour l’analyse de messages d’observation astrophysique

Thèse co-dirigée par Pierre Zweigenbaum (CNRS, LISN) et Fabian Schüssler (IRFU, CEA), et co-encadrée par Cyril Grouin (CNRS, LISN)

Orateur : Atilla Kaan Alkan

Jury

  • Béatrice Daille, Professeure des universités, Laboratoire des Sciences du Numérique de Nantes, Université de Nantes (rapporteure) ;
  • Vincent Claveau, Chargé de recherche, Direction générale de l’armement (rapporteur) ;
  • Olivier Ferret, Directeur de recherche, Université Paris-Saclay, CEA-List (examinateur) ;
  • Yvonne Becherini, Professeure des universités, Université Paris Cité, Astroparticule et Cosmologie, Data Intelligence Institute of Paris (examinatrice).

Résumé

Cette thèse aborde un défi majeur de l’analyse de textes non structurés en astrophysique : l’extraction et la synthèse d’information sur les objets célestes à partir de rapports d’observation astronomique. L’extraction d’information, sous-domaine clé du traitement automatique des langues (TALTraitement Automatique des langues), vise à transformer des textes bruts en représentations formelles et exploitables, facilitant ainsi la structuration des connaissances contenues dans ces documents. Parmi les tâches classiques de ce domaine figurent la reconnaissance d’entités nommées, l’extraction de relations et la résolution de coréférences.
Cependant, ces tâches reposent sur des modèles d’apprentissage statistique qui nécessitent de vastes ensembles de données annotées manuellement. Dans des domaines spécialisés comme l’astrophysique, cette exigence est difficile à satisfaire en raison du coût d’annotation par des experts du domaine. L’émergence des modèles de langue pré-entraînés et génératifs a permis des avancées considérables dans le TALTraitement Automatique des langues. Toutefois, ces modèles ne sont pas directement adaptés pour extraire des informations spécifiques aux rapports astronomiques. En effet, le domaine se caractérise par un vocabulaire et une terminologie spécialisés. Par exemple, les rapports contiennent fréquemment des entités de type numérique et équationnelle, telles que des coordonnées ou des propriétés physiques avec certaines ambiguïtés entre différents concepts dues à la forme de surface. Ce constat a motivé notre première question de recherche : quels concepts astrophysiques doivent être définis pour identifier les entités nommées pertinentes et quelles relations doivent être définies entre ces entités ?

Pour répondre à cette question, nous avons collaboré avec des astrophysiciens afin d’élaborer un guide d’annotation couvrant les entités célestes, les mentions de coréférence et les relations sémantique entre entités. Une contribution majeure de cette thèse est la création d’astroECR, un corpus astrophysique annoté de manière détaillée pour ces trois niveaux d’information.

Cependant, l’annotation manuelle étant coûteuse et fastidieuse, cela nous a conduit à explorer l’efficacité des méthodes d’augmentation de données, en générant des données artificielles annotées. Nos travaux se sont ensuite concentrés sur la question suivante :
quelles méthodes d’augmentation sont les plus adaptées à des tâches comme l’extraction d’entités nommées et la résolution de coréférences ?
Pour répondre, nous avons proposé des méthodes d’augmentation de données simples et flexibles, adaptées aux tâches spécifiques d’extraction d’information. Ces méthodes incluent l’introduction de nouvelles mentions d’entraînement et la modification du contexte des mentions existantes. Nous les avons appliquées à divers modèles de langue pré-entraînés (BERT, SciBERT, et astroBERT) et évaluées sur des rapports astronomiques annotés. Les résultats montrent que même des méthodes d’augmentation simples peuvent permettre d’améliorer les performances des modèles dans des contextes de ressources limitées. Ces avancées offrent des perspectives futures pour l’extraction d’information dans des domaines à faible ressource au-delà de l’astrophysique.