LIPS

Langue Interaction Parole et Signes (LIPS)

L'équipe LIPS, composée de chercheurs et enseignants-chercheurs en linguistique et traitement des langues, conduit des recherches pluridisciplinaires sur les langues orales, parlées et signées. Elle coopère largement avec les autres équipes du département STL, ainsi qu'avec d'autres départements du laboratoire.

Les enjeux scientifiques de l’équipe LIPSLangue Interaction Parole et Signes concernent les langues orales, parlées et signées, avec des objectifs de description linguistique et de modélisation. L’équipe rassemble des chercheurs en traitement des langues et des linguistes avec un focus sur la dimension située du langage : nous utilisons des données variées, de différentes tailles et sources, illustrant la variation linguistique dans toutes ses dimensions, des unités minimales au sens. Les traitements multimodaux impliquant la variété écrite et sonore des langues parlées ainsi que d’autres informations visuelles (par exemple l’oculométrie) ou des variétés écrites et orales de langues différentes (par exemple des vidéos de langue des signes sous-titrées en français) est également au cœur de nos préoccupations. Nos travaux donnent lieu à une variété d’applications : reconnaissance et synthèse de la parole et de la langue des signes, systèmes de dialogue. Notre recherche est par nature interdisciplinaire et nécessite des compétences en traitement du signal, en linguistique et en informatique.

Les activités de l’équipe s’articulent autour de trois thèmes :

Recherche d’information dans les dialogues

Les travaux sur la recherche d’informations multimodales et conversationnelles s’articulent autour de deux piliers principaux : l’intégration de la multimodalité dans les systèmes de recherche d’informations et l’étude des interactions dialogiques. Plus précisément, cette recherche se concentre sur la manière de représenter les données multimodales, en prenant en compte les contextes et divers aspects multimodaux dans les représentations développées, et en relevant le défi posé par la rareté des données disponibles. Les méthodes d’intelligence artificielle mises en œuvre abordent également les questions liées au traitement des données dégradées, à l’apprentissage continu et interactif, ainsi qu’à l’analyse des données, tout en visant à rendre les prédictions des modèles compréhensibles, dans une optique d’explicabilité.

Modélisation et traitement automatique des langues des signes

Les langues des signes, langues peu dotées, sont dotées d’un système linguistique découlant de leur nature visuo-gestuelle : un grand nombre d’informations sont exprimées simultanément et organisées dans l’espace, et l’iconicité joue un rôle central. La modélisation informatique des LS nécessite la conception de représentations avec peu de données disponibles, et où les modèles préexistants, essentiellement linéaires, ont été développés pour des langues écrites ou parlées et ne couvrent pas tous les aspects des LS. A travers des projets et des thèses et en lien avec les locuteurs de ces langues (par exemple traducteurs et journalistes sourds), nous abordons les questions de recherche suivantes : Comment analyser, représenter et traiter les LS ? Comment prendre en compte les spécificités linguistiques liées à leur nature visuo-gestuelle (multilinéarité, spatialisation, iconicité) ? Quels types d’approches sont possibles avec peu de données ? Les projets en cours sont détaillés sur cette page.

Traitement de la parole et modélisation de la variation multilingue

Les études sur ce thème visent à comprendre les phénomènes de variation qui sous-tendent les changements temporels et spatiaux dans le langage parlé et à développer des modèles à utiliser dans le traitement automatique de la parole. L’un de nos objectifs est de structurer l’information contenue dans les documents audio en développant des modèles et des algorithmes qui s’appuient sur diverses sources d’information et peuvent servir à détecter la présence de la parole, à identifier la langue parlée et à caractériser le(s) locuteur(s), à transcrire la parole en texte dans la même langue ou dans une langue différente, ou à identifier des entités spécifiques ou des caractéristiques acoustiques. En ce qui concerne la reconnaissance de la parole, nos recherches visent à compléter la séquence de mots reconnus par la ponctuation et par des informations paralinguistiques telles que les hésitations, les rires ou les bruits de respiration. Nous étudions également des techniques d’apprentissage frugales et les appliquons à la reconnaissance vocale pour des langues et des tâches à faibles ressources.

Actualités

Coordination

Membres de l’équipe

Dernières publications sur HAL

  • Communication dans un congrès

    Lisa Raithel, Philippe Thomas, Bhuvanesh Verma, Roland Roller, Hui-Syuan Yeh, et al.. Overview of #SMM4H 2024 – Task 2: Cross-Lingual Few-Shot Relation Extraction for Pharmacovigilance in French, German, and Japanese. The 9th Social Media Mining for Health Research and Applications (SMM4H 2024) Workshop and Shared Tasks, Association for Computational Linguistics, Aug 2024, Bangkok, Thailand. pp.170-182. ⟨hal-04781015⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Am I eligible? Natural Language Inference for Clinical Trial Patient Recruitment: the Patient’s Point of View. 2025. ⟨hal-04992084⟩

    STL

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary. Construction, exploitation et exploration de ressources linguistiques pour le traitement automatique des expressions polylexicales en français : le projet PARSEME-FR. Lidia Becker; Julia Kuhn; Christina Ossenkop; Claudia Polzin-Haumann; Elton Prifti. Digitale romanistische Sprachwissenschaft: Stand und Perspektiven, Narr Francke Attempto Verlag GmbH + Co. KG, pp.219-250, 2023, Romanistisches Kolloquium, 978-3-8233-8506-6. ⟨hal-04995189⟩

    ILES, STL

    Année de publication

  • Thèse

    Rémi Uro. Détection et caractérisation des interruptions dans les interactions orales pour la description du comportement des femmes et des hommes dans les contenus audiovisuels. Informatique et langage [cs.CL]. Université Paris-Saclay, 2024. Français. ⟨NNT : 2024UPASG055⟩. ⟨tel-04994439⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Amel Fraisse, Patrick Paroubek, Ramit Goyal, Nassreddine Znaidi. Measuring Multilingualism in Online Public Access Catalogs. The ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL), Dec 2024, Hong Khong, China. ⟨hal-04986773⟩

    ILES, STL

    Année de publication

  • Communication dans un congrès

    Manon Scholivet, Agata Savary, Louis Estève, Marie Candito, Carlos Ramisch. SELEXINI – a large and diverse automatically parsed corpus of French. Building and Using Comparable Corpora (BUCC), Jan 2025, Abu DHABI, United Arab Emirates. ⟨hal-04978746⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Hui-Syuan Yeh. Prompt-based Relation Extraction for Pharmacovigilance. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG097⟩. ⟨tel-04968043⟩

    STL

    Année de publication

    Disponible en libre accès

  • Rapport

    Sylvain Bouveret, Aurélie Bugeau, Frenoux Emmanuelle, Julien Lefevre, Laurent Lefèvre, et al.. Quiz sur les impacts environnementaux du numérique. EcoInfo. 2025, pp.1-5. ⟨hal-04960328v2⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Camille Challant. Représentation formelle avec AZee et contraintes grammaticales pour la langue des signes française. Théorie et langage formel [cs.FL]. Université Paris-Saclay, 2024. Français. ⟨NNT : 2024UPASG086⟩. ⟨tel-04957486⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Zheng Zhang, Brian Denton, Xiaolan Xie. Branch and Price for Chance-Constrained Bin Packing. INFORMS Journal on Computing, 2020, 32 (3), pp.547-564. ⟨10.1287/ijoc.2019.0894⟩. ⟨hal-04941861⟩

    ILES, STL

    Année de publication

  • Communication dans un congrès

    Simon Devauchelle, David Doukhan, Lucas Ondel Yang, Benjamin Élie, Albert Rilliard. Estimation automatique de caractéristiques acoustiques pour l’étude diachronique du français oral dans les médias. Atelier DAHLIA: DigitAl Humanities and cuLtural herItAge: data and knowledge management and analysis, Claudia Marinica; Fabrice Guillet; Florent Laroche, Jan 2025, Strasbourg, France. ⟨hal-04938377⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Rémi Uro, David Doukhan. Pendant le confinement, le temps de parole des femmes a baissé à la télévision et à la radio. La revue des médias, 2020. ⟨hal-04906221⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. “Women do not have heart attacks!” Gender Biases in Automatically Generated Clinical Cases in French. Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics, Apr 2025, Albuquerque, United States. ⟨hal-04938811⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Clément Bernard, Guillaume Postic, Sahar Ghannay, Fariza Tahi. RNA-TorsionBERT: leveraging language models for RNA 3D torsion angles prediction. Bioinformatics, 2025, 41 (1), pp.btaf004. ⟨10.1093/bioinformatics/btaf004⟩. ⟨hal-04911519⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Marion Ficher, Tom Bauer, Anne-Laure Ligozat. A comprehensive review of the end-of-life modeling in LCAs of digital equipment. International Journal of Life Cycle Assessment, 2024, 30 (1), pp.20-42. ⟨10.1007/s11367-024-02367-x⟩. ⟨hal-04924691⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Atilla Kaan Alkan. Natural Language Processing for Analyzing Messages of Astrophysical Observations. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG114⟩. ⟨tel-04928511⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Clément Bernard, Guillaume Postic, Sahar Ghannay, Fariza Tahi. Has AlphaFold3 achieved success for RNAs?. 2025. ⟨hal-04911522⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Léa-Marie Lam-Yee-Mui. Modélisations pour la reconnaissance de la parole à données contraintes. Traitement du signal et de l’image [eess.SP]. Université Paris-Saclay, 2024. Français. ⟨NNT : 2024UPASG075⟩. ⟨tel-04918814⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Clément Bernard, Guillaume Postic, Sahar Ghannay, Fariza Tahi. Has AlphaFold 3 achieved success for RNA?. Acta crystallographica Section D : Structural biology [1993-..], 2025, 81 (2), pp.49–62. ⟨10.1107/S2059798325000592⟩. ⟨hal-04919467⟩

    STL

    Année de publication

  • Chapitre d'ouvrage

    Philippe Boula de Mareüil, Plínio A. Barbosa. Picos melódicos pretônicos em final de enunciado no português brasileiro: um estudo quantitativo. Dermeval da Hora; Ángela Helmer. Interseções Linguísticas: Estudos Diversos, Líquido Editorial, pp.71-85, 2023, ALFAL, 9786599924804. ⟨hal-04893646⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Douglas Teodoro, Nona Naderi, Anthony Yazdani, Boya Zhang, Alban Bornet. A Scoping Review of Artificial Intelligence Applications in Clinical Trial Risk Assessment. 2025. ⟨hal-04913991⟩

    STL

    Année de publication

  • Pré-publication, Document de travail

    Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Entity-aware cross-modal pretraining for Knowledge-Based Visual Question Answering. 2024. ⟨cea-04910767⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Paritosh Sharma. Sign Language synthesis by a decreasing granularity system from AZee. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG092⟩. ⟨tel-04908078⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Laetitia Biscarrat, David Doukhan, Cyril Grouin. De Loft Story aux Marseillais à Dubaï : apport des méthodes d’analyse automatique pour la description des évolutions du dispositif télévisuel. Colloque ”La téléréalité, entre média, événement et société”, part of 89e Congrès de l’Association canadienne-française pour l’avancement des sciences (ACFAS), Association canadienne-française pour l’avancement des sciences (ACFAS), 2022, Montreal, Canada. ⟨hal-04906923⟩

    STL

    Année de publication

  • Communication dans un congrès

    Laetitia Biscarrat, David Doukhan, Cyril Grouin. De Loft Story aux Marseillais à Dubaï : 20 ans de télé-réalité, 20 ans de sexisme ? Apport des méthodes d’analyse automatique pour une approche comparative. Première journée d’études de l’Arcom, ARCOM, Nov 2022, Paris, France. ⟨hal-04905959⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Rémi Uro, Marie Tahon, David Doukhan, Albert Rilliard. Comprendre les phénomènes permettant la gestion des tours de parole dans les contenus de médias audiovisuels. Journée commune AFIA-TLH / AFCP – “Extraction de connaissances interprétables pour l’étude de la communication parlée”, Corinne Fredouille; Maëva Garnier; Olivier Perrotin; Marie Tahon, Dec 2023, Avignon, France. ⟨hal-04906679⟩

    STL, TLP

    Année de publication

  • Autre publication scientifique

    Louis Estève, Kaja Dobrovoljc. A new pipeline for measuring diversity across various linguistic levels. 2025. ⟨hal-04886792⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Leticia Rebollo Couto, Albert Rilliard. Variação Pragmática e Diminutivização: intensificação e atenuação de atos expressivos e diretivos para a dublagem de animação em português, espanhol e francês. IV Colloque International VariaR 2024, Université Paul-Valéry Montpellier 3, Jun 2024, Montpellier, France. pp.43-44, ⟨10.3726/978-3-0351-0740-1⟩. ⟨hal-04874595⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Sofiya Kobylyanskaya. Towards multimodal assessment of L2 level : speech and eye tracking features in a cross-cultural setting. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG111⟩. ⟨tel-04900961⟩

    STL

    Année de publication

    Disponible en libre accès

  • Poster de conférence

    Leticia Rebollo Couto, Albert Rilliard. Variación pragmática y expresividad negativa: análisis multimodal en datos de doblaje. LingCor2024: Workshop on Spoken Corpus Linguistics, Jul 2024, Vienna, Austria. . ⟨hal-04874470⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Fanny Ducel, Karën Fort, Maxime Amblard. Vers la création d’une super-intelligence » : un corpus pour étudier les revendications des articles de TALTraitement Automatique des langues. Journées de lancement LIFT 2, Nov 2024, Orléans, France. ⟨hal-04880335⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Ayoub Hammal, Benno Uthayasooriyar, Caio Corro. Few-Shot Domain Adaptation for Named-Entity Recognition via Joint Constrained k-Means and Subspace Selection. COLING 2025 – 31st International Conference on Computational Linguistics, Jan 2025, Abu Dhabi, United Arab Emirates. pp.1-15. ⟨hal-04877776⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Simon Devauchelle, Albert Rilliard, David Doukhan, Lucas Ondel Yang. Describing voice in French media archives: age and gender effects on pitch and articulation characteristics. XX Convegno Nazionale AISV, LFSAG (Laboratorio di Fonetica Sperimentale “Arturo Genre”) Dipartimento di Lingue e Letterature Straniere e Culture Moderne Università degli Studi di Torino, Feb 2024, Turin (Italie), Italy. ⟨hal-04874662⟩

    STL

    Année de publication

  • Communication dans un congrès

    Donna Erickson, João Antônio De Moraes, Albert Rilliard. Dimensões das atitudes prosódicas entre culturas. V Seminário Internacional de Fonologia, Universidade Federal do Rio de Janeiro, Nov 2024, Rio de Janeiro (BR), Brazil. ⟨hal-04874627⟩

    STL

    Année de publication

  • Communication dans un congrès

    Khanh-An C Quan, Camille Guinaudeau, Shin’Ichi Satoh. Evaluating VQA Models’ Consistency in the Scientific Domain. Multimedia Modelling 2025, Jan 2025, Nara, Japan. ⟨hal-04860239⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Saumya Yadav, Elise Lincker, Caroline Huron, Stéphanie Martin, Camille Guinaudeau, et al.. Towards Inclusive Education: Multimodal Classification of Textbook Images for Accessibility. Multimedia Modelling 2025, Jan 2025, Nara, Japan. ⟨hal-04860245⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat, Aleksandra Miletic, Jean Sibille, et al.. L’avenir numérique des langues minoritaires : bilan du projet RESTAURE pour l’alsacien, l’occitan et le picard. Colloque « Langues minoritaires » : quels acteurs pour quel avenir ?, Groupe d’Etudes sur le Plurilinguisme européen (EA1339 LiLPa), Nov 2019, Strasbourg, France. ⟨hal-04864670⟩

    ILES, STL

    Année de publication

  • Article dans une revue

    Cyril Grouin, Natalia Grabar. Year 2023 in Biomedical Natural Language Processing: A Tribute to Large Language Models and Generative AI. IMIA Yearbook of Medical Informatics, 2024. ⟨hal-04865083⟩

    STL

    Année de publication

  • Communication dans un congrès

    Natalia Grabar, Thierry Hamon. Study of the propaganda techniques occurring in Russian newspaper titles in 2022. METAPOL, université de Liège, Nov 2024, Liège (Belgique), Belgium. ⟨hal-04865074⟩

    STL

    Année de publication

  • Article dans une revue

    Angèle Gayet-Ageron, Khaoula Ben Messaoud, Mark Richards, Cyril Jaksic, Julien Gobeill, et al.. Gender and geographical bias in the editorial decision-making process of biomedical journals: a case-control study. BMJ Evidence-Based Medicine, 2024, pp.bmjebm-2024-113083. ⟨10.1136/bmjebm-2024-113083⟩. ⟨hal-04865134⟩

    STL

    Année de publication

  • Communication dans un congrès

    Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Multi-Level Information Retrieval Augmented Generation for Knowledge-based Visual Question Answering. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, Nov 2024, Miami, United States. pp.16499-16513, ⟨10.18653/v1/2024.emnlp-main.922⟩. ⟨hal-04852275⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Aurélie Bugeau, Anne-Laure Ligozat. L’informatique en temps de crises environnementales : comment adapter la recherche et l’enseignement ?. 2024. ⟨hal-04850517⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Donna Erickson, Albert Rilliard, Ela Thurgood, João Antônio de Moraes, Takaaki Shochi. Acoustic and perceptual profiles of american english social affective expressions. Journal of Speech Sciences, 2024, 13, pp.e024004. ⟨10.20396/joss.v13i00.20015⟩. ⟨hal-04850040⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Clément Morand, Anne-Laure Ligozat, Aurélie Névéol. How Green Can AI Be? A Study of Trends in Machine Learning Environmental Impacts. 2024. ⟨hal-04839926v3⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Lucie Gianola. Traitement automatique des langues et linguistique de corpus pour la reconnaissance d’entités en analyse criminelle. Revue internationale de criminologie et de police technique et scientifique, 2021, LXXIV (3), pp.363-382. ⟨hal-04833123⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Poster de conférence

    Mathilde Aguiar, Ying Lai, Pierre Zweigenbaum, Nona Naderi. Constituting a dataset for applying Natural Language Inference to Chinese Clinical Trials: possible approaches and challenges. Junior Conference on Data Sciences and Engineering, Sep 2024, Gif-sur-Yvette, France. ⟨hal-04837721⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Hansjörg Mixdorff, Albert Rilliard, Navneet Nayan. Perceptual Evaluation of Attitudinal Expressions. 5th International Symposium on Applied Phonetics (ISAPh 2024), Pärtel Lippus, Sep 2024, Tartu, Estonia. pp.60-64, ⟨10.21437/ISAPh.2024-12⟩. ⟨hal-04823812⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Ilia Kuznetsov, Osama Mohammed Afzal, Koen Dercksen, Nils Dycke, Alexander Goldberg, et al.. What Can Natural Language Processing Do for Peer Review?. 2024. ⟨hal-04797652⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Fanny Ducel, Aurélie Névéol, Karën Fort. “You’ll be a nurse, my son!” Automatically Assessing Gender Biases in Autoregressive Language Models in French and Italian. Language Resources and Evaluation, 2024, ⟨10.1007/s10579-024-09780-6⟩. ⟨hal-04803403⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Lisa Raithel, Hui-Syuan Yeh, Shuntaro Yada, Cyril Grouin, Thomas Lavergne, et al.. A Dataset for Pharmacovigilance in German, French, and Japanese: Annotating Adverse Drug Reactions across Languages. Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Turin, Italy. pp.395-414. ⟨hal-04779777⟩

    STL

    Année de publication

    Disponible en libre accès