Du

Horaire -

Lieu LISN Site Belvédère

STL

Modèles faiblement supervisés pour la documentation automatique des langues

Thèse sous la direction de François YVON

Orateur : Shu OKABE

Jury

  • Claire GARDENT, directrice de recherche au LORIA (CNRS, Université de Lorraine) ;
  • Alexis NASR, professeur au LIS (CNRS, UTLN, Université Aix Marseille) ;
  • Roland KUHN, Principal Research Officer du National Research Council Canada ;
  • François PELLEGRINO, directeur de recherche au DDL – ISH (CNRS, Université de Lyon 2) ;
  • Agata SAVARY, professeure au LISN (CNRS, Université Paris-Saclay) ;
  • Laurent BESACIER, Principal Scientist à Naver Labs Europe et professeur à l’Université Grenoble-Alpes ;
  • François YVON, directeur de thèse, directeur de recherche à l’ISIR (CNRS, Sorbonne Université).

Mots-clefs

Documentation automatique des langues, Segmentation en mots, Modèle bayésien non paramétrique, Génération de gloses interlinéaires, Supervision faible, Linguistique de terrain

Résumé

Face à la menace d’extinction de la moitié des langues parlées aujourd’hui d’ici la fin du siècle, la documentation des langues est un domaine de la linguistique notamment consacré à la collecte, annotation et archivage de données. Dans ce contexte, la documentation automatique des langues vise à outiller les linguistes pour faciliter différentes étapes de la documentation, à travers des approches de traitement automatique du langage. Dans le cadre du projet de documentation automatique CLD2025, cette thèse s’intéresse principalement à deux tâches : la segmentation en mots, identifiant les frontières des mots dans une transcription non segmentée d’une phrase enregistrée, ainsi que la génération de gloses interlinéaires, prédisant des annotations linguistiques pour chaque unité de la phrase. Pour la première, nous améliorons les performances des modèles bayésiens non paramétriques utilisés jusque là à travers une supervision faible, en nous appuyant sur des ressources disponibles de manière réaliste lors de la documentation, comme des phrases déjà segmentées ou des lexiques. Comme nous observons toujours une tendance de sur-segmentation dans nos modèles, nous introduisons un second niveau de segmentation : les morphèmes Nos expériences avec divers types de modèles de segmentation à deux niveaux indiquent une qualité de segmentation sensiblement meilleure ; nous constatons, par ailleurs, les limites des approches uniquement statistiques pour différencier les mots des morphèmes. La seconde tâche concerne la génération de gloses, soit grammaticales, soit lexicales. Comme ces dernières ne peuvent pas être prédites en se basant seulement sur les données d’entraînement, notre modèle statistique d’étiquetage de séquences fait moduler, pour chaque phrase, les étiquettes possibles et propose une approche compétitive avec les modèles neuronaux les plus récents.

Lieu de l'événement