Petits modèles génératifs en contexte industriel : Adaptation par prompting avec peu de données

Soutenance de thèse de doctorat, réalisée sous la direction de Sophie Rosset (Directrice de Recherche, LISN) et la co-direction de Christophe Séjourné (Directeur Data/IA, SCIAM), avec le co-encadrement de Sahar Ghannay (Maîtresse de Conférences, LISN). Thèse effectuée dans le cadre du dispositif CIFRE en collaboration avec la société SCIAM.

Orateur : Pierre Lepagnol

Ajouter à mon calendrier

Mots-clés

Petits modèles de langue, Prompting dynamique, Classification, Reconnaissance d’entités nommées, Slot filling

Jury

François Portet – Professeur, LIG (Rapporteur et examinateur)
Frédéric Bechet – Professeur, LIS (Rapporteur et examinateur)
Agata Savary – Professeure, LISN/SEME (Examinatrice)
Nathalie Camelin – Maîtresse de Conférences, LIA (Examinatrice)
Benoît Favre – Professeur, LIS (Examinateur)

Résumé

Le traitement automatique des langues (TALTraitement Automatique des langues) permet d’automatiser l’analyse de textes pour la classification et l’extraction d’informations. Cependant, le développement de tels systèmes se heurte à deux verrous majeurs : la rareté de données annotées, des ressources de calcul limitées. Cette thèse CIFRE, réalisée avec la société SCIAM, explore les modèles génératifs de petite taille pour la classification d’énoncés, le slot filling et la reconnaissance d’entités nommées, dans un cadre industriel à faibles annotations.

Nos travaux s’articulent autour de quatre axes. Le premier concerne la sélection de modèles sans données annotées : une évaluation zero-shot de 72 modèles sur 15 jeux de classification met en évidence que la taille n’est pas le seul facteur déterminant des performances ; l’architecture et l’instruction-tuning jouent aussi un rôle, permettant à des modèles de 1 à 3B paramètres de rivaliser avec ceux dépassant 7B. Le deuxième axe porte sur l’optimisation du contexte avec peu d’exemples : une approche de prompting dynamique par recherche d’information (BM25) améliore les performances en slot filling jusqu’à 21 points de score F1 par rapport aux sélections par intention ou aléatoire, sur quatre jeux de données (ATIS, SNIPS, SLURP, MEDIA), sans surcoût d’inférence. Le troisième axe analyse l’impact du format de sortie structuré : l’étude de trois formats (Key-Value, JSON, XML) sur 13 modèles et 7 jeux de données révèle des écarts de 2 à 46 points de F1, et nous proposons une méthode de sélection automatique identifiant le format optimal à moindre coût. Enfin, le quatrième axe expose les risques de contamination des benchmarks et propose des méthodes de détection par similarité et extraction, permettant d’évaluer la fiabilité des évaluations.

Ces travaux, accompagnés de code public et de protocoles reproductibles, établissent des bases méthodologiques pour des systèmes TALTraitement Automatique des langues auditables et adaptés aux contraintes industrielles.

Publications

Communication dans un congrès

Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan, Sophie Rosset. Les petits modèles sont bons : une étude empirique de classification dans un contexte zero-shot. 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024), Jul 2024, Toulouse, France. pp.113-129. ⟨hal-04623012v2⟩

STL

Année de publication 2024

Disponible en libre accès

Publication HAL
Communication dans un congrès

Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan, S. Rosset. Détection des contaminations de LLM par extraction de données : une revue de littérature pratique. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), Jul 2025, Marseille, France. pp.233-251. ⟨hal-05330614⟩

Année de publication 2025

Disponible en libre accès

Publication HAL
Communication dans un congrès

Pierre Lepagnol, Sahar Ghannay, Thomas Gerald, Christophe Servan, Sophie Rosset. Leveraging Information Retrieval to Enhance Spoken Language Understanding Prompts in Few-Shot Learning. Interspeech 2025, Aug 2025, Rotterdam, Netherlands. ⟨10.21437/Interspeech.2025-175⟩. ⟨hal-05095796⟩

STL

Année de publication 2025

Disponible en libre accès

Publication HAL

Toutes les publications

Salle virtuelle : lien d’accès

Mots-clés

Jury

Résumé

Publications Lieu de l'événement

Pierre Lepagnol, Sahar Ghannay, Thomas Gerald, Christophe Servan, Sophie Rosset. Leveraging Information Retrieval to Enhance Spoken Language Understanding Prompts in Few-Shot Learning. Interspeech 2025, Aug 2025, Rotterdam, Netherlands. ⟨10.21437/Interspeech.2025-175⟩. ⟨hal-05095796⟩

Lieu de l'événement Lieu de l'événement

Publications

Lieu de l'événement