STL

Sciences et Technologies des Langues

Le département Sciences et Technologies des Langues étudie des questions fondamentales relatives aux systèmes linguistiques par l’exploitation de larges corpus collectés, annoté et enrichis de manière non-supervisée ou semi-supervisée par des modèles d’apprentissage statistique adaptés au matériau linguistique.

Ces modèles permettent d’étudier le fonctionnement des langues, leurs variations (phonétiques-phonologiques, morphologiques-lexicales, syntaxiques et sémantiques) synchroniques et diachroniques, diaphasiques et diatopiques ainsi que de soulever des questions relatives à leur acquisition en tant que langues maternelles ou secondes. Enfin, le département développe les grandes applications du traitement des langues :reconnaissance vocale, traduction automatique, recherche d’information, agents conversationnels, qui portent des enjeux sociétaux (sauvegarde des langues en danger, outillage de personnes en situation de handicap, aide au traitement de l’information et de la connaissance médicale) et éthiques de plus en plus importants.

Cette approche de la Langue et des langues couvre ainsi un large spectre, des recherches les plus fondamentales aux plus appliquées, dans une grande variété de médias (journaux, médias sociaux, vidéo, téléphone) et toutes les modalités (écrit, parole et signe).

Ces recherches sont fortement pluridisciplinaires et rassemblent des communautés diverses relevant de l’informatique, des sciences de l’ingénieur et des sciences humaines et sociales, qui se retrouvent autour de l’étude de la langue par l’exploitation de corpus et la culture de l’évaluation quantitative, deux marqueurs forts de leur activité de recherche

Les équipes

Jusqu’en 2023, le département comptait deux équipes : ILES et TLP. Ces deux équipes se sont restructurées ainsi :

Les pages de contenu sont en cours de rédaction.

Equipes

Actualités

Offres de stages

Publications récentes

  • Communication dans un congrès

    Marie Schmit, Melvin Selim Atay, Khalid Belhajjame, Ulysse Le Clanche, Emmanuel Coquery, et al.. ShareFAIR-KG, a centralised knowledge base of scientific workflows. JOBIM 2026 – Journées Ouvertes en Biologie, Informatique et Mathématiques, Jun 2026, Strasbourg, France. ⟨hal-05666980⟩

    BioInfo, STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Louis Estève, Marie-Catherine de Marneffe, Nurit Melnik, Agata Savary, Olha Kanishcheva. A survey of diversity quantification in natural language processing: The why, what, where and how. 2026. ⟨hal-05661565⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Alexandre Genadot, Nicolas Guilliot, Philippe Boula de Mareüil. Introduction to the book “Cartographier les Langues de Nouvelle-Aquitaine: entre Grammaire et Société”. 2026. ⟨hal-05662837⟩

    STL

    Année de publication

  • Communication dans un congrès

    Agata Savary, Manon Scholivet, Carlos Ramisch, Takuya Nakamura, Eric Bilinski, et al.. PARSEME 2.0 Multilingual Corpus of Multiword Expressions. LREC 2026 – 15th biennial Language Resources and Evaluation Conference, ELRA Language Resources Association, May 2026, Palma De MaJorque, Spain. ⟨10.63317/2iy5qf38yhay⟩. ⟨hal-05661505⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Julie Halbout, Annelies Braffort, Michèle Gouiffès, Diandra Fabre, Julie Lascar. Learning to Spot Signs from Named Entities. A study on French Sign Language. LREC2026 12th Workshop on the Representation and Processing of Sign Languages: Language in Motion, May 2026, Palma de Majorque, Spain. ⟨hal-05636077⟩

    AMIArchitectures et modèles pour l'Interaction, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Damien Lacroux, Aurélie Bugeau, Anne-Laure Ligozat. The indirect rebound effects of AIArtificial Intelligence as undone science: philosophical reflection on two structural causes. Undone Computer Science, Mar 2026, Luxembourg, Luxembourg. ⟨hal-05624399⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Benedictus Kent Rachmat, Thomas Gerald, Zheng Zhang, Cyril Grouin. Les données de calibration comptent-elles vraiment pour LoRA?. EvalLLM2026 : Atelier sur l’évaluation des modèles génératifs (LLM), le RAG et challenges, Jul 2026, Nantes (France), France. ⟨hal-05633638⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Assessing the Difficulty of Inference Types in Natural Language Inference for Clinical Trials. The Fifteenth Language Resources and Evaluation Conference (LREC 2026), May 2026, Palma, France. pp.5290-5300, ⟨10.63317/359toazp33g8⟩. ⟨hal-05652719⟩

    STL

    Année de publication

  • Communication dans un congrès

    Jenny Copara, Nona Naderi, Gilles Falquet, Douglas Teodoro. MeSH Concept Relevance and Knowledge Evolution: A Data-Driven Perspective. 12th International Conference on Information Management and Big Data. Communications in Computer and Information Science, Oct 2025, Lima (Pérou), Peru. pp.280-299, ⟨10.1007/978-3-032-20322-9_20⟩. ⟨hal-05625658⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clément Morand, Aina Rasoldier, Paul Gay. Not up to its critical perspective on digitalization: A Descriptive Analysis of How Sustainability is Approached in the ICT4S Conference. ICT4S, Jun 2026, Berne, France. ⟨hal-05615744⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Fanny Ducel, Lucie Digoin-Caparros, Ibrahim Al Kotob, Shayan Ahmed Shariff, Binesh Arakkal Remesh, et al.. Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope. TALN 2026 – 33e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2026, Nantes, France. ⟨hal-05618509⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Louis Estève, Christophe Servan, Thomas Lavergne, Agata Savary. A Diversity Diet for a Healthier Model: A Case Study of French ModernBERT. 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026), Jul 2026, San Diego, United States. ⟨hal-05599374⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Virgile Barthet. Extraction d’information et classification de textes cliniques pour la prédiction du risque de décès. Intelligence artificielle [cs.AIArtificial Intelligence]. Université Paris-Saclay, 2026. Français. ⟨NNT : 2026UPASG019⟩. ⟨tel-05599487⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Christophe Servan, Sahar Ghannay, Patrick Paroubek, et al.. Étude des propositionneurs multilingues : formalisation, évaluation et interprétabilité. CORIA-TALN, ARIA; ATALA, Jun 2026, Nantes, France. ⟨hal-05597666⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Mathilde Deletombe, Manon Scholivet, Louis Estève, Thomas Lavergne, Agata Savary. Diversity patterns run deep: Impact of diversity intake on multiword expression identification. 22nd Workshop on Multiword Expressions (MWE 2026), Mar 2026, Rabat, Morocco. pp.110-116, ⟨10.18653/v1/2026.mwe-1.13⟩. ⟨hal-05588681⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Manon Scholivet, Agata Savary, Carlos Ramisch, Eric Bilinski, Takuya Nakamura, et al.. Edition 2.0 of the PARSEME shared task on multilingual identification and paraphrasing of multiword expressions. Proceedings of the 22nd Workshop on Multiword Expressions (MWE 2026), Mar 2026, Rabat, Morocco. pp.254-275, ⟨10.18653/v1/2026.mwe-1.33⟩. ⟨hal-05588684⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Eva Feillet, Ryan Whetten, David Picard, Alexandre Allauzen. POLYNOMIAL MIXING FOR EFFICIENT SELF-SUPERVISED SPEECH ENCODERS. 2026. ⟨hal-05589762⟩

    STL

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Yoshua Bengio, Holger Schwenk, Jean-Sébastien Senécal, Emmanuel Morin, Jean-Luc Gauvain. Neural Probabilistic Language Models. Innovations in Machine Learning: Theory and Applications, 194, pp.137-186, 2005, ⟨10.1007/3-540-33486-6_6⟩. ⟨hal-01434258⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Jean-Luc Gauvain, Abdel Messaoudi, Holger Schwenk. Language Recognition Using Phone Lattices. International Conference on Speech and Language Processing, Oct 2004, Jeju, South Korea. pp.1283–1286. ⟨hal-01434492⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Sophie Rosset, Patrick Paroubek, Christophe Servan, et al.. Les propositions atomiques : un pont entre approches neuronales et symboliques. Journée interprétabilité, GDR TALTraitement Automatique des langues, Mar 2026, Jussieu, Paris, France. ⟨hal-05575718⟩

    STL

    Année de publication

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Patrick Paroubek, Sahar Ghannay, Christophe Servan, et al.. LLM-based Atomic Propositions Help Weak Extractors: Evaluation of a Propositioner for Triplet Extraction. KG-LLM@LREC – Knowledge Graphs and Large Language Models, ELRA, May 2026, Palma De Majorque, Spain. ⟨hal-05572941⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Luc Pommeret, Thibault Wagret, Jules Deret. THIVLVC: Retrieval Augmented Dependency Parsing for Latin. EvaLatin (LT4HALA@LREC), ELRA, May 2026, Palma De Majorque, Spain. ⟨hal-05572961v2⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Jean-Luc Gauvain, Gilles Adda, Lori Lamel, Fabrice Lefèvre, Holger Schwenk. Transcription de la parole conversationnelle. Revue TALTraitement Automatique des langues : traitement automatique des langues, 2005, 45 (3). ⟨hal-01434260⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Jean-Luc Gauvain, Gilles Adda, Martine Adda-Decker, Alexandre Allauzen, Veronique Gendner, et al.. Where are we in transcribing French broadcast news?. Eurospeech, Sep 2005, Lisbonne, Portugal. pp.1665-1668, ⟨10.21437/Interspeech.2005-544⟩. ⟨hal-01434245⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Hélène Bonneau-Maynard, Alexandre Allauzen, Daniel Déchelotte, Holger Schwenk. Combining Morphosyntactic Enriched Representation with n-best Reranking in Statistical Translation. HLT/NACL workshop on Syntax and Structure in Statistical Translation, Apr 2007, Rochester, United States. pp.65-71. ⟨hal-01434104⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, André F T Martins, Ayoub Hammal, et al.. EuroBERT: Scaling Multilingual Encoders for European Languages. COLM 2025 – Second Conference on Language Modeling, Oct 2025, Montreal, Canada. pp.1-28. ⟨hal-05226285⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Pierre Lepagnol. Petits modèles génératifs en contexte industriel : Adaptation par prompting avec peu de données. Intelligence artificielle [cs.AIArtificial Intelligence]. Université Paris-Saclay, 2026. Français. ⟨NNT : 2026UPASG011⟩. ⟨tel-05572429⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Ayoub Hammal, Pierre Zweigenbaum, Caio Corro. KAD: A Framework for Proxy-based Test-time Alignment with Knapsack Approximation Deferral. EACL 2026 – 19th Conference of the European Chapter of the Association for Computational Linguistics, Mar 2026, Rabat, Morocco. pp.3854-3872, ⟨10.18653/v1/2026.eacl-long.179⟩. ⟨hal-05571208⟩

    STL

    Année de publication

    Disponible en libre accès

  • Rapport

    Karin Dassas, Cyrille Bonamy, Bruno Bzeznik, Emmanuelle Frenoux, Gaël Guennebaud, et al.. Estimer l’impact carbone des activités numériques d’une unité de recherche. CNRS (EcoInfo). 2026. ⟨hal-05568070⟩

    STL

    Année de publication

    Disponible en libre accès