Du

Horaire

Lieu LISN Site Belvédère

STL, Thèses et HDR

Évaluation et adaptation de plongements lexicaux au domaine à travers l’exploitation de connaissances syntaxiques et sémantiques

Orateur : Alexandra BENAMAR

Soutenance de thèse le 25 mai 2023 à 14h00

Les modèles de plongements lexicaux se sont imposés comme les modèles de représentation les plus populaires en TALTraitement Automatique des langues. Afin d’obtenir de bonnes performances, ils nécessitent d’être entraînés sur de grands corpus de données provenant principalement du domaine général et sont fréquemment affinés pour être appliqués à des données de spécialité. Cependant, l’affinage des données est une pratique coûteuse en termes de ressources et son efficacité est controversée.

Dans le cadre de cette thèse, nous évaluons l’utilisation de modèles de plongements lexicaux sur des corpus de spécialité et nous montrons que la proximité entre les vocabulaires des données d’entraînement et des données d’application joue un rôle majeur dans la représentation des termes hors-vocabulaire. Nous observons que cela est principalement dû à la tokenisation initiale des mots, et nous proposons une mesure pour calculer l’impact de la segmentation des mots sur leur représentation.

Pour résoudre ce problème, nous proposons deux méthodes permettant d’injecter des connaissances linguistiques aux représentations générées par les Transformer : une méthode intervient à l’échelle des données et l’autre à l’échelle du modèle. Notre recherche démontre que l’ajout de contexte syntaxique et sémantique peut améliorer l’application de modèles auto-supervisés à des domaines de spécialité, tant pour la
représentation du vocabulaire que pour la résolution de tâches de TALTraitement Automatique des langues.
Les méthodes proposées peuvent être utilisées pour n’importe quelle langue disposant d’informations linguistiques ou d’autres connaissances externes.

Jury

Rapporteurs

  • Farah Benamara Zitoune – Université Paul Sabatier, IRIT
  • Benoît Crabbé – Université Paris Cité, CNRS, LLF

Examinatrices

  • Delphine Bernhard – Université de Strasbourg, LiLPA
  • Fatiha Saïs – Université Paris Saclay, CNRS, LISN
  • Direction de thèse
    Anne Vilnat, Université Paris-Saclay, CNRS, LISN
  • Co-endadrement de thèse
      Cyril Grouin, Université Paris-Saclay, CNRS, LISN

Lieu de l'événement