LIPS

Langue Interaction Parole et Signes (LIPS)

L'équipe LIPS, composée de chercheurs et enseignants-chercheurs en linguistique et traitement des langues, conduit des recherches pluridisciplinaires sur les langues orales, parlées et signées. Elle coopère largement avec les autres équipes du département STL, ainsi qu'avec d'autres départements du laboratoire.

Les enjeux scientifiques de l’équipe LIPSLangue Interaction Parole et Signes concernent les langues orales, parlées et signées, avec des objectifs de description linguistique et de modélisation. L’équipe rassemble des chercheurs en traitement des langues et des linguistes avec un focus sur la dimension située du langage : nous utilisons des données variées, de différentes tailles et sources, illustrant la variation linguistique dans toutes ses dimensions, des unités minimales au sens. Les traitements multimodaux impliquant la variété écrite et sonore des langues parlées ainsi que d’autres informations visuelles (par exemple l’oculométrie) ou des variétés écrites et orales de langues différentes (par exemple des vidéos de langue des signes sous-titrées en français) est également au cœur de nos préoccupations. Nos travaux donnent lieu à une variété d’applications : reconnaissance et synthèse de la parole et de la langue des signes, systèmes de dialogue. Notre recherche est par nature interdisciplinaire et nécessite des compétences en traitement du signal, en linguistique et en informatique.

Les activités de l’équipe s’articulent autour de trois thèmes :

  • Recherche d’information dans les dialogues

Les travaux sur la recherche d’informations multimodales et conversationnelles s’articulent autour de deux piliers principaux : l’intégration de la multimodalité dans les systèmes de recherche d’informations et l’étude des interactions dialogiques. Plus précisément, cette recherche se concentre sur la manière de représenter les données multimodales, en prenant en compte les contextes et divers aspects multimodaux dans les représentations développées, et en relevant le défi posé par la rareté des données disponibles. Les méthodes d’intelligence artificielle mises en œuvre abordent également les questions liées au traitement des données dégradées, à l’apprentissage continu et interactif, ainsi qu’à l’analyse des données, tout en visant à rendre les prédictions des modèles compréhensibles, dans une optique d’explicabilité.

  • Modélisation et traitement automatique des langues des signes

Les langues des signes, langues peu dotées, sont dotées d’un système linguistique découlant de leur nature visuo-gestuelle : un grand nombre d’informations sont exprimées simultanément et organisées dans l’espace, et l’iconicité joue un rôle central. La modélisation informatique des LS nécessite la conception de représentations avec peu de données disponibles, et où les modèles préexistants, essentiellement linéaires, ont été développés pour des langues écrites ou parlées et ne couvrent pas tous les aspects des LS. A travers des projets et des thèses et en lien avec les locuteurs de ces langues (par exemple traducteurs et journalistes sourds), nous abordons les questions de recherche suivantes : Comment analyser, représenter et traiter les LS ? Comment prendre en compte les spécificités linguistiques liées à leur nature visuo-gestuelle (multilinéarité, spatialisation, iconicité) ? Quels types d’approches sont possibles avec peu de données ? Les projets en cours sont détaillés sur cette page.

  • Traitement de la parole et modélisation de la variation multilingue

Les études sur ce thème visent à comprendre les phénomènes de variation qui sous-tendent les changements temporels et spatiaux dans le langage parlé et à développer des modèles à utiliser dans le traitement automatique de la parole. L’un de nos objectifs est de structurer l’information contenue dans les documents audio en développant des modèles et des algorithmes qui s’appuient sur diverses sources d’information et peuvent servir à détecter la présence de la parole, à identifier la langue parlée et à caractériser le(s) locuteur(s), à transcrire la parole en texte dans la même langue ou dans une langue différente, ou à identifier des entités spécifiques ou des caractéristiques acoustiques. En ce qui concerne la reconnaissance de la parole, nos recherches visent à compléter la séquence de mots reconnus par la ponctuation et par des informations paralinguistiques telles que les hésitations, les rires ou les bruits de respiration. Nous étudions également des techniques d’apprentissage frugales et les appliquons à la reconnaissance vocale pour des langues et des tâches à faibles ressources.

Actualités

Événements

Projets et contrats

Coordination

Membres de l’équipe

Dernières publications sur HAL

  • Communication dans un congrès

    Iskandar Boucharenc, Sahar Ghannay, Christophe Servan, Laure Soulier, Sophie Rosset. Étude de l’adaptation des gros modèles de langues par retour visuel. Journée Visu, GdR IG-RV, Jun 2023, Orsay, France. ⟨hal-05670004⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Emmett Strickland, Marc Evrard, Valentina Fedchenko. Transfer Learning for Creole TTS: A Pilot Study on Whether Substrate Phonologies or Lexifier Vocabularies Matter More. Towards Inclusivity and Equality: Language Resources and Technologies for Under-Resourced and Endangered Languages, SIGUL 2026 Joint Workshop with ELE, EURALI, and DCLRL, May 2026, Palma De Majorque, Spain. ⟨hal-05617449⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Bruno Guillaume, Aurélie Névéol, Karën Fort. Omniprésents et anthropomorphisés : analyse lexico-syntaxique des discours sur les LLM. TALN 2026 – 33e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2026, Nantes, France. ⟨hal-05670834⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Karën Fort, Vincent P. Martin, Aurélie Névéol. Grands modèles de langue pour prédire la santé mentale : une revue exploratoire de la documentation des biais et de l’utilité clinique. TALN 2026 – 33e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2026, Nantes, France. ⟨hal-05670826⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Clément Morand, Aurélie Névéol, Rosy Tsopra, Anne-Isabelle Tropeano, Sophie de Chambine, et al.. Prospectively Evaluating the Environmental Impacts of Digital Health Applications : A Case Study and Recommendations. Journal of the American Medical Informatics Association, 2026, ⟨10.1093/jamia/ocag091⟩. ⟨hal-05628404⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Thomas Gerald, Sahar Ghannay, Julie Lascar, Paul Lerner, Anne Vilnat. Can Multimodal LLMs Generate Pedagogical Questions?. LREC 2026, May 2026, Palma, Spain. ⟨10.63317/4z4gj3h8jmc7⟩. ⟨hal-05658326⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Thierry Hamon. Description of the LISN system for extracting terms. DEfinition and Term Extraction CHallenge 2026 (DETECH 2026), Jun 2026, Zadar, Croatia. ⟨hal-05669893⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Marie Schmit, Melvin Selim Atay, Khalid Belhajjame, Ulysse Le Clanche, Emmanuel Coquery, et al.. ShareFAIR-KG, a centralised knowledge base of scientific workflows. JOBIM 2026 – Journées Ouvertes en Biologie, Informatique et Mathématiques, Jun 2026, Strasbourg, France. ⟨hal-05666980⟩

    BioInfo, STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Louis Estève, Marie-Catherine de Marneffe, Nurit Melnik, Agata Savary, Olha Kanishcheva. A survey of diversity quantification in natural language processing: The why, what, where and how. 2026. ⟨hal-05661565⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Alexandre Genadot, Nicolas Guilliot, Philippe Boula de Mareüil. Introduction to the book “Cartographier les Langues de Nouvelle-Aquitaine: entre Grammaire et Société”. 2026. ⟨hal-05662837⟩

    STL

    Année de publication

  • Communication dans un congrès

    Agata Savary, Manon Scholivet, Carlos Ramisch, Takuya Nakamura, Eric Bilinski, et al.. PARSEME 2.0 Multilingual Corpus of Multiword Expressions. LREC 2026 – 15th biennial Language Resources and Evaluation Conference, ELRA Language Resources Association, May 2026, Palma De MaJorque, Spain. ⟨10.63317/2iy5qf38yhay⟩. ⟨hal-05661505⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Julie Halbout, Annelies Braffort, Michèle Gouiffès, Diandra Fabre, Julie Lascar. Learning to Spot Signs from Named Entities. A study on French Sign Language. LREC2026 12th Workshop on the Representation and Processing of Sign Languages: Language in Motion, May 2026, Palma de Majorque, Spain. ⟨hal-05636077⟩

    AMIArchitectures et modèles pour l'Interaction, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Damien Lacroux, Aurélie Bugeau, Anne-Laure Ligozat. The indirect rebound effects of AIArtificial Intelligence as undone science: philosophical reflection on two structural causes. Undone Computer Science, Mar 2026, Luxembourg, Luxembourg. ⟨hal-05624399⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Benedictus Kent Rachmat, Thomas Gerald, Zheng Zhang, Cyril Grouin. Les données de calibration comptent-elles vraiment pour LoRA?. EvalLLM2026 : Atelier sur l’évaluation des modèles génératifs (LLM), le RAG et challenges, Jul 2026, Nantes (France), France. ⟨hal-05633638⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Assessing the Difficulty of Inference Types in Natural Language Inference for Clinical Trials. The Fifteenth Language Resources and Evaluation Conference (LREC 2026), May 2026, Palma, France. pp.5290-5300, ⟨10.63317/359toazp33g8⟩. ⟨hal-05652719⟩

    STL

    Année de publication

  • Communication dans un congrès

    Jenny Copara, Nona Naderi, Gilles Falquet, Douglas Teodoro. MeSH Concept Relevance and Knowledge Evolution: A Data-Driven Perspective. 12th International Conference on Information Management and Big Data. Communications in Computer and Information Science, Oct 2025, Lima (Pérou), Peru. pp.280-299, ⟨10.1007/978-3-032-20322-9_20⟩. ⟨hal-05625658⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clément Morand, Aina Rasoldier, Paul Gay. Not up to its critical perspective on digitalization: A Descriptive Analysis of How Sustainability is Approached in the ICT4S Conference. ICT4S, Jun 2026, Berne, France. ⟨hal-05615744⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Fanny Ducel, Lucie Digoin-Caparros, Ibrahim Al Kotob, Shayan Ahmed Shariff, Binesh Arakkal Remesh, et al.. Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope. TALN 2026 – 33e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2026, Nantes, France. ⟨hal-05618509⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Louis Estève, Christophe Servan, Thomas Lavergne, Agata Savary. A Diversity Diet for a Healthier Model: A Case Study of French ModernBERT. 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026), Jul 2026, San Diego, United States. ⟨hal-05599374⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Virgile Barthet. Extraction d’information et classification de textes cliniques pour la prédiction du risque de décès. Intelligence artificielle [cs.AIArtificial Intelligence]. Université Paris-Saclay, 2026. Français. ⟨NNT : 2026UPASG019⟩. ⟨tel-05599487⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Christophe Servan, Sahar Ghannay, Patrick Paroubek, et al.. Étude des propositionneurs multilingues : formalisation, évaluation et interprétabilité. CORIA-TALN, ARIA; ATALA, Jun 2026, Nantes, France. ⟨hal-05597666⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Mathilde Deletombe, Manon Scholivet, Louis Estève, Thomas Lavergne, Agata Savary. Diversity patterns run deep: Impact of diversity intake on multiword expression identification. 22nd Workshop on Multiword Expressions (MWE 2026), Mar 2026, Rabat, Morocco. pp.110-116, ⟨10.18653/v1/2026.mwe-1.13⟩. ⟨hal-05588681⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Manon Scholivet, Agata Savary, Carlos Ramisch, Eric Bilinski, Takuya Nakamura, et al.. Edition 2.0 of the PARSEME shared task on multilingual identification and paraphrasing of multiword expressions. Proceedings of the 22nd Workshop on Multiword Expressions (MWE 2026), Mar 2026, Rabat, Morocco. pp.254-275, ⟨10.18653/v1/2026.mwe-1.33⟩. ⟨hal-05588684⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Eva Feillet, Ryan Whetten, David Picard, Alexandre Allauzen. POLYNOMIAL MIXING FOR EFFICIENT SELF-SUPERVISED SPEECH ENCODERS. 2026. ⟨hal-05589762⟩

    STL

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Yoshua Bengio, Holger Schwenk, Jean-Sébastien Senécal, Emmanuel Morin, Jean-Luc Gauvain. Neural Probabilistic Language Models. Innovations in Machine Learning: Theory and Applications, 194, pp.137-186, 2005, ⟨10.1007/3-540-33486-6_6⟩. ⟨hal-01434258⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Jean-Luc Gauvain, Abdel Messaoudi, Holger Schwenk. Language Recognition Using Phone Lattices. International Conference on Speech and Language Processing, Oct 2004, Jeju, South Korea. pp.1283–1286. ⟨hal-01434492⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Sophie Rosset, Patrick Paroubek, Christophe Servan, et al.. Les propositions atomiques : un pont entre approches neuronales et symboliques. Journée interprétabilité, GDR TALTraitement Automatique des langues, Mar 2026, Jussieu, Paris, France. ⟨hal-05575718⟩

    STL

    Année de publication

  • Communication dans un congrès

    Luc Pommeret, Thomas Gerald, Patrick Paroubek, Sahar Ghannay, Christophe Servan, et al.. LLM-based Atomic Propositions Help Weak Extractors: Evaluation of a Propositioner for Triplet Extraction. KG-LLM@LREC – Knowledge Graphs and Large Language Models, ELRA, May 2026, Palma De Majorque, Spain. ⟨hal-05572941⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Luc Pommeret, Thibault Wagret, Jules Deret. THIVLVC: Retrieval Augmented Dependency Parsing for Latin. EvaLatin (LT4HALA@LREC), ELRA, May 2026, Palma De Majorque, Spain. ⟨hal-05572961v2⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Jean-Luc Gauvain, Gilles Adda, Lori Lamel, Fabrice Lefèvre, Holger Schwenk. Transcription de la parole conversationnelle. Revue TALTraitement Automatique des langues : traitement automatique des langues, 2005, 45 (3). ⟨hal-01434260⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Jean-Luc Gauvain, Gilles Adda, Martine Adda-Decker, Alexandre Allauzen, Veronique Gendner, et al.. Where are we in transcribing French broadcast news?. Eurospeech, Sep 2005, Lisbonne, Portugal. pp.1665-1668, ⟨10.21437/Interspeech.2005-544⟩. ⟨hal-01434245⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Hélène Bonneau-Maynard, Alexandre Allauzen, Daniel Déchelotte, Holger Schwenk. Combining Morphosyntactic Enriched Representation with n-best Reranking in Statistical Translation. HLT/NACL workshop on Syntax and Structure in Statistical Translation, Apr 2007, Rochester, United States. pp.65-71. ⟨hal-01434104⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, André F T Martins, Ayoub Hammal, et al.. EuroBERT: Scaling Multilingual Encoders for European Languages. COLM 2025 – Second Conference on Language Modeling, Oct 2025, Montreal, Canada. pp.1-28. ⟨hal-05226285⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Pierre Lepagnol. Petits modèles génératifs en contexte industriel : Adaptation par prompting avec peu de données. Intelligence artificielle [cs.AIArtificial Intelligence]. Université Paris-Saclay, 2026. Français. ⟨NNT : 2026UPASG011⟩. ⟨tel-05572429⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Ayoub Hammal, Pierre Zweigenbaum, Caio Corro. KAD: A Framework for Proxy-based Test-time Alignment with Knapsack Approximation Deferral. EACL 2026 – 19th Conference of the European Chapter of the Association for Computational Linguistics, Mar 2026, Rabat, Morocco. pp.3854-3872, ⟨10.18653/v1/2026.eacl-long.179⟩. ⟨hal-05571208⟩

    STL

    Année de publication

    Disponible en libre accès

  • Rapport

    Karin Dassas, Cyrille Bonamy, Bruno Bzeznik, Emmanuelle Frenoux, Gaël Guennebaud, et al.. Estimer l’impact carbone des activités numériques d’une unité de recherche. CNRS (EcoInfo). 2026. ⟨hal-05568070⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Jules Françoise, Julie Lascar, Cyril Verrecchia, Sidonie Minodier, Michèle Gouiffès, et al.. LaboSignes: an Interactive French Sign Language Recognition Interface. ACM CHI’26, Apr 2026, Barcelona, Spain. ⟨10.1145/3772363.3799328⟩. ⟨hal-05564455⟩

    AMIArchitectures et modèles pour l'Interaction, ASARD, STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Clément Morand, Jacques Combaz, Aurélie Névéol, Anne-Laure Ligozat. When rebound effect is not a side effect: analyzing sociotechnical contexts of digital technologies. 2026. ⟨hal-05566029⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Julie Lascar, Jules Françoise, Michèle Gouiffès, Annelies Braffort, Diandra Fabre. PoET: Lightweight Pose Encoder Transformer for Online Sign Language Recognition. 21st International Conference on Computer Vision Theory and Applications, Mar 2026, Marbella, Spain. pp.19-28, ⟨10.5220/0014237500004084⟩. ⟨hal-05564749⟩

    AMIArchitectures et modèles pour l'Interaction, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Baptiste Pras, Nona Naderi. Fine-Grained Mention-Level Analysis of Biomedical Entity Linking Models. Medical Informatics Europe 2026, EFMI, May 2026, Gênes (Italie), Italy. pp.999-1003, ⟨10.3233/SHTI260329⟩. ⟨hal-05544092⟩

    STL

    Année de publication

    Disponible en libre accès

  • Notice d’encyclopédie ou de dictionnaire

    Albert Rilliard. Fala, emoções e atitudes. Speech Sciences Entries, 2024, https://gepf.falar.org/entries/66. ⟨hal-05474723⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Natalia Grabar, Cyril Grouin. Year 2021: COVID-19, Information Extraction and BERTization among the Hottest Topics in Medical Natural Language Processing. IMIA Yearbook of Medical Informatics, 2022, 31 (01), pp.254-260. ⟨10.1055/s-0042-1742547⟩. ⟨hal-03931852⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Pierre Lepagnol, Sahar Ghannay, Thomas Gerald, Christophe Servan, Sophie Rosset. Format Matters: A Critical Evaluation of Output Formats for Prompting LLMs in SLU and NER. The Fifteenth biennial Language Resources and Evaluation Conference (LREC 2026), May 2026, Palma de Majorque, Spain. ⟨10.63317/3osjjdr778fh⟩. ⟨hal-05546569⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Fanny Ducel, Maxime Amblard, Karën Fort. COCOA: Creation and Exploratory Investigation of a Corpus of Claims from NLP Articles. LREC 2026 – International Conference on Language Resources and Evaluation, ELRA Language Resources Association, May 2026, Palma de Mallorca, Spain. ⟨10.63317/38hiuxwcq4bc⟩. ⟨hal-05547842⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Assessing the Difficulty of Inference Types in Natural Language Inference for Clinical Trials. 2026. ⟨hal-05533706v2⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Juan Manuel Coria, Hervé Bredin, Sahar Ghannay, Sophie Rosset, Khaled Zaouk, et al.. Diart: A Python Library for Real-Time Speaker Diarization. Journal of Open Source Software, 2024, 9 (99), pp.5266. ⟨10.21105/joss.05266⟩. ⟨hal-05530961⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Karën Fort, Vincent P. Martin, Aurélie Névéol. Grands modèles de langue pour la détection de pathologies psychiatriques : promesses, réalité, et enjeux. Journée d’étude “LLM@hopital”, ATALA, Mar 2026, Paris, France. ⟨hal-05532823⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Iskandar Boucharenc. Hierarchical Prefixes for Long Document Representations. ECIR – European Conference on Information Retrieval, Apr 2025, Lucca, Italy. pp.171-177, ⟨10.1007/978-3-031-88720-8_28⟩. ⟨hal-05530637⟩

    STL

    Année de publication

  • Communication dans un congrès

    Fanny Ducel, Aurélie Névéol, Vidit Khazanchi, Loïc Leclere, Arthur Pedrini, et al.. Code-switching as a Bias Indicator in LLMs: “The consequences are not the same para nosotros”. LREC 2026 – 15th biennial Language Resources and Evaluation Conference, May 2026, Palma De Mallorca, Spain. ⟨10.63317/2mq6kqjk9bng⟩. ⟨hal-05529786⟩

    STL

    Année de publication

    Disponible en libre accès