Communication dans un congrès
Du
Horaire -
Lieu LISN Site Belvédère
STL, Thèses et HDR
Orateur : Pierre Lepagnol
Petits modèles de langue, Prompting dynamique, Classification, Reconnaissance d’entités nommées, Slot filling
Le traitement automatique des langues (TALTraitement Automatique des langues) permet d’automatiser l’analyse de textes pour la classification et l’extraction d’informations. Cependant, le développement de tels systèmes se heurte à deux verrous majeurs : la rareté de données annotées, des ressources de calcul limitées. Cette thèse CIFRE, réalisée avec la société SCIAM, explore les modèles génératifs de petite taille pour la classification d’énoncés, le slot filling et la reconnaissance d’entités nommées, dans un cadre industriel à faibles annotations.
Nos travaux s’articulent autour de quatre axes. Le premier concerne la sélection de modèles sans données annotées : une évaluation zero-shot de 72 modèles sur 15 jeux de classification met en évidence que la taille n’est pas le seul facteur déterminant des performances ; l’architecture et l’instruction-tuning jouent aussi un rôle, permettant à des modèles de 1 à 3B paramètres de rivaliser avec ceux dépassant 7B. Le deuxième axe porte sur l’optimisation du contexte avec peu d’exemples : une approche de prompting dynamique par recherche d’information (BM25) améliore les performances en slot filling jusqu’à 21 points de score F1 par rapport aux sélections par intention ou aléatoire, sur quatre jeux de données (ATIS, SNIPS, SLURP, MEDIA), sans surcoût d’inférence. Le troisième axe analyse l’impact du format de sortie structuré : l’étude de trois formats (Key-Value, JSON, XML) sur 13 modèles et 7 jeux de données révèle des écarts de 2 à 46 points de F1, et nous proposons une méthode de sélection automatique identifiant le format optimal à moindre coût. Enfin, le quatrième axe expose les risques de contamination des benchmarks et propose des méthodes de détection par similarité et extraction, permettant d’évaluer la fiabilité des évaluations.
Ces travaux, accompagnés de code public et de protocoles reproductibles, établissent des bases méthodologiques pour des systèmes TALTraitement Automatique des langues auditables et adaptés aux contraintes industrielles.
Communication dans un congrès
Communication dans un congrès
Communication dans un congrès