Du

Horaire -

Lieu LISN Site Belvédère

STL, Thèses et HDR

Augmentation et génération de données d’apprentissage en traitement automatique des langues

Orateur : Hugo BOULANGER

Composition du jury

  • Christophe Gravier, Rapporteur & Examinateur, Professeur, Université Jean Monnet
  • Vincent Claveau,  Rapporteur & Examinateur, Chargé de recherche, CNRS
  • Fatiha Saïs,  Examinatrice, Professeure, Université Paris Saclay
  • Benoît Sagot, Examinateur, Directeur de recherche, INRIA
  • Laure Soulier, Examinatrice, Maîtresse de conférences, Sorbonne Université
  • Sophie Rosset, Directrice de thèse, Directrice de recherche, CNRS
  • Thomas Lavergne, co-encadrant, Maître de conférences, Université Paris-Saclay

Résumé

  De plus en plus de domaines cherchent à automatiser une partie de leur processus. Le traitement automatique des langues contient des méthodes permettant d’extraire des informations dans des textes. Ces méthodes peuvent utiliser de l’apprentissage automatique. L’apprentissage automatique nécessite des données annotées pour faire de l’extraction d’information de manière optimale. L’application de ces méthodes à de nouveaux domaines nécessite d’obtenir des données annotées liée à la tâche. Le problème que nous souhaitons résoudre est de proposer et d’étudier des méthodes de génération pour améliorer les performances de modèles appris à basse quantité de données. Nous explorons différentes méthodes avec et sans apprentissage pour générer les données nécessaires à l’apprentissage de modèles d’étiquetage.
  La première méthode que nous explorons est le remplissage de patrons. Cette méthode de génération de données permet de générer des données annotées en combinant des phrases à trous, les patrons, et des mentions. Nous avons montré que cette méthode permet d’améliorer les performances des modèles d’étiquetage à très petite quantité de données. Nous avons aussi étudié la quantité de données nécessaire pour l’utilisation optimale de cette méthode.
  La deuxième approche de génération que nous avons testé est l’utilisation de modèles de langue pour la génération couplée à l’utilisation de méthode d’apprentissage semi-supervisé. La méthode d’apprentissage semi-supervisé utilisé est le tri-training et sert à ajouter les étiquettes aux données générées. Le tri-training est testé sur plusieurs méthodes de génération utilisant différents modèles de langue pré-entraînés. Nous avons proposé une version du tri-training appelé tri-training génératif, où la génération n’est pas faite en amont, mais durant le processus de tri-training et profite de celui-ci. Nous avons testé les performances des modèles entraînés durant le processus de semi-supervision et des modèles entraîné sur les données produites par celui-ci. Dans la majeure partie des cas, les données produites permettent d’égaler les performances des modèles entraînés avec la semi-supervision. Cette méthode permet l’amélioration des performances à tous les niveaux de données testés vis-à-vis des modèles sans augmentation.
  La troisième piste d’étude vise à combiner certains aspects des approches précédentes. Pour cela, nous avons testé différentes approches. L’utilisation de modèles de langues pour faire du remplacement de bouts de phrase à la manière de la méthode de remplissage de patrons fut infructueuse. Nous avons testé l’addition de données générées par différentes méthodes qui ne permet pas de surpasser la meilleure des méthodes. Enfin, nous avons testé l’application de la méthode de remplissage de patrons sur les données générées avec le tri-training qui n’a pas amélioré les résultats obtenu avec le tri-training.
S’il reste encore beaucoup à étudier, nous avons cependant mis en évidence des méthodes simples, comme le remplissage de patrons, et plus complexe, comme l’utilisation d’apprentissage supervisé avec des phrases générées par un modèle de langue, permettant d’améliorer les performances de modèles d’étiquetage grâce à la génération de données annotées.

Publications

  • Communication dans un congrès

    Hugo Boulanger, Thomas Lavergne, Sophie Rosset. Generating unlabelled data for a tri-training approach in a low resourced NER task. Third Workshop on Deep Learning for Low-Resource Natural Language Processing, Jul 2022, Hybrid, Seattle, United States. pp.30-37, ⟨10.18653/v1/2022.deeplo-1.4⟩. ⟨hal-03813272⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

Lieu de l'événement