L'équipe LIPS, composée de chercheurs et enseignants-chercheurs en linguistique et traitement des langues, conduit des recherches pluridisciplinaires sur les langues orales, parlées et signées. Elle coopère largement avec les autres équipes du département STL, ainsi qu'avec d'autres départements du laboratoire.
Les enjeux scientifiques de l’équipe LIPSLangue Interaction Parole et Signes concernent les languesorales, parlées et signées, avec des objectifs de description linguistique et de modélisation. L’équipe rassemble des chercheurs en traitement des langues et des linguistes avec un focus sur la dimension située du langage : nous utilisons des données variées, de différentes tailles et sources, illustrant la variation linguistique dans toutes ses dimensions, des unités minimales au sens. Les traitements multimodaux impliquant la variété écrite et sonore des langues parlées ainsi que d’autres informations visuelles (par exemple l’oculométrie) ou des variétés écrites et orales de langues différentes (par exemple des vidéos de langue des signes sous-titrées en français) est également au cœur de nos préoccupations. Nos travaux donnent lieu à une variété d’applications : reconnaissance et synthèse de la parole et de la langue des signes, systèmes de dialogue. Notre recherche est par nature interdisciplinaire et nécessite des compétences en traitement du signal, en linguistique et en informatique.
Les activités de l’équipe s’articulent autour de trois thèmes :
Recherche d’information dans les dialogues
Les travaux sur la recherche d’informations multimodales et conversationnelles s’articulent autour de deux piliers principaux : l’intégration de la multimodalité dans les systèmes de recherche d’informations et l’étude des interactions dialogiques. Plus précisément, cette recherche se concentre sur la manière de représenter les données multimodales, en prenant en compte les contextes et divers aspects multimodaux dans les représentations développées, et en relevant le défi posé par la rareté des données disponibles. Les méthodes d’intelligence artificielle mises en œuvre abordent également les questions liées au traitement des données dégradées, à l’apprentissage continu et interactif, ainsi qu’à l’analyse des données, tout en visant à rendre les prédictions des modèles compréhensibles, dans une optique d’explicabilité.
Modélisation et traitement automatique des langues des signes
Les langues des signes, langues peu dotées, sont dotées d’un système linguistique découlant de leur nature visuo-gestuelle : un grand nombre d’informations sont exprimées simultanément et organisées dans l’espace, et l’iconicité joue un rôle central. La modélisation informatique des LS nécessite la conception de représentations avec peu de données disponibles, et où les modèles préexistants, essentiellement linéaires, ont été développés pour des langues écrites ou parlées et ne couvrent pas tous les aspects des LS. A travers des projets et des thèses et en lien avec les locuteurs de ces langues (par exemple traducteurs et journalistes sourds), nous abordons les questions de recherche suivantes : Comment analyser, représenter et traiter les LS ? Comment prendre en compte les spécificités linguistiques liées à leur nature visuo-gestuelle (multilinéarité, spatialisation, iconicité) ? Quels types d’approches sont possibles avec peu de données ? Les projets en cours sont détaillés sur cette page.
Traitement de la parole et modélisation de la variation multilingue
Les études sur ce thème visent à comprendre les phénomènes de variation qui sous-tendent les changements temporels et spatiaux dans le langage parlé et à développer des modèles à utiliser dans le traitement automatique de la parole. L’un de nos objectifs est de structurer l’information contenue dans les documents audio en développant des modèles et des algorithmes qui s’appuient sur diverses sources d’information et peuvent servir à détecter la présence de la parole, à identifier la langue parlée et à caractériser le(s) locuteur(s), à transcrire la parole en texte dans la même langue ou dans une langue différente, ou à identifier des entités spécifiques ou des caractéristiques acoustiques. En ce qui concerne la reconnaissance de la parole, nos recherches visent à compléter la séquence de mots reconnus par la ponctuation et par des informations paralinguistiques telles que les hésitations, les rires ou les bruits de respiration. Nous étudions également des techniques d’apprentissage frugales et les appliquons à la reconnaissance vocale pour des langues et des tâches à faibles ressources.
Clément Morand, Olivier Ridoux. CRI : A Competent Reader Imitator for detecting binomial names in an historical corpus. Lingvisticae investigationes : International Journal of Linguistics and Language, 2024, 47 (1), pp.30-67. ⟨10.1075/li.00107.mor⟩. ⟨hal-04764787⟩
Fanny Ducel, Aurélie Névéol, Karën Fort. Desiderata for Actionable Bias Research. New Perspectives on Bias and Discrimination in Language Technology, Nov 2024, Amsterdam (Pays-Bas), France. ⟨hal-04755691⟩
Jamil Zaghir, Marco Naguib, Mina Bjelogrlic, Aurélie Névéol, Xavier Tannier, et al.. Prompt Engineering Paradigms for Medical Applications: Scoping Review. Journal of Medical Internet Research, 2024, 26, pp.e60501. ⟨10.2196/60501⟩. ⟨hal-04752782⟩
Mariana Neves, Cristian Grozea, Philippe Thomas, Roland Roller, Rachel Bawden, et al.. Findings of the WMT 2024 Biomedical Translation Shared Task: TestDéfinition courte Lorem ipsum Sets on Abstract Level. WMT24 – Ninth Conference on Machine Translation, Nov 2024, Miami, Florida, United States. ⟨hal-04750560⟩
Najet Hadj Mohamed, Cherifa Ben Khelil, Agata Savary, Iskander Keskes, Jean Yves Antoine, et al.. PARSEME-AR: Arabic reference corpus for multiword expressions using PARSEME annotation guidelines. Language Resources and Evaluation, 2024, ⟨10.1007/s10579-024-09763-7⟩. ⟨hal-04738059⟩
David Benaben, Françoise Berthoud, Gaël Guennebaud, Anne-Laure Ligozat, S. Valcke. Estimation de l’empreinte carbone d’une heure de calcul sur un cœur CPUCognition Perception et Usages ou sur un GPU. Labos 1point5. 2024. ⟨hal-04738556⟩
Théo Gigant, Camille Guinaudeau, Marc Decombas, Frédéric Dufaux. Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics. The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024), Nov 2024, Miami (FL), United States. ⟨hal-04720645⟩
Emmanuella Martinod, Michael Filhol. Formal Representation of Interrogation in French Sign Language. Proceedings of the 11th Workshop on representation and processing of Sign Languages, May 2024, Turin, Italy. ⟨hal-04712681⟩
Michael Filhol, Thomas von Ascheberg. A software editor for the AZVD graphical Sign Language representation system. Workshop on the representation and processing Sign Language, May 2024, Turin, Italy. ⟨hal-04712674⟩
Emmanuella Martinod, Michael Filhol. Examining interrogative marking in French Sign Language with the AZee approach. Clause-type marking in the visual modality, workshop at the Annual Conference of the German Linguistics Society, German Linguistics Society, Feb 2024, Bochum, Germany. ⟨hal-04709019⟩
Paritosh Sharma, Camille Challant, Michael Filhol. Facial Expressions for Sign Language Synthesis using FACSHuman and AZee. 11th Workshop on the Representation and Processing of Sign Languages: Evaluation of Sign Language Resources, May 2024, Turin, Italy. ⟨hal-04709105⟩
Paritosh Sharma, Michael Filhol. Sign Language Synthesis using Pose Priors. MOCO ’24: 9th International Conference on Movement and Computing, May 2024, Utrecht Netherlands, France. pp.1-4, ⟨10.1145/3658852.3659080⟩. ⟨hal-04709203⟩
Pierre La Rocca, Gaël Guennebaud, Aurélie Bugeau, Anne-Laure Ligozat. Estimating The Carbon Footprint Of Digital Agriculture Deployment: A Parametric Bottom-Up Modelling Approach.. Journal of Industrial Ecology, In press, ⟨10.1111/jiec.13568⟩. ⟨hal-04708774⟩
Fanny Ducel, Aurélie Névéol, Karën Fort. La recherche sur les biais dans les modèles de langue est biaisée : état de l’art en abyme. Revue TALTraitement Automatique des langues : traitement automatique des langues, 2024, 64 (3). ⟨hal-04710191⟩
Carlos Cuevas Villarmin, Sarah Cohen-Boulakia, Nona Naderi. Reproducibility in Named Entity Recognition: A Case Study Analysis. 2024 IEEE 20th International Conference on e-Science (e-Science), Sep 2024, Osaka, Japan. pp.1-10, ⟨10.1109/e-Science62913.2024.10678721⟩. ⟨hal-04706673⟩
Rémi Uro, Marie Tahon, David Doukhan, Antoine Laurent, Albert Rilliard. Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content. Interspeech 2024, Itshak Lapidot; Sharon Gannot, Sep 2024, Kos, Greece. pp.3560 – 3564, ⟨10.21437/interspeech.2024-1163⟩. ⟨hal-04694968⟩
Benjamin Elie, David Doukhan, Rémi Uro, Lucas Ondel Yang, Albert Rilliard, et al.. Articulatory Configurations across Genders and Periods in French Radio and TV archives. Interspeech 2024, Itshak Lapidot; Sharon Gannot, Sep 2024, Kos, Greece. pp.3085-3089, ⟨10.21437/interspeech.2024-1177⟩. ⟨hal-04694868⟩
Rémi Uro, Marie Tahon, Jane Wottawa, David Doukhan, Albert Rilliard, et al.. Annotation of Transition-Relevance Places and Interruptions for the Description of Turn-Taking in Conversations in French Media Content. Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Sep 2024, Torino, Italy. pp.1225–1232. ⟨hal-04694997⟩
Luc Mottin, Nona Naderi, Anaïs Mottaz, Pierre-André Michel, Gerieke Been, et al.. Comparing Sequence-Based and Literature-Based Pathogenicity Scoring Methods for Human Variants. 34th Medical Informatics Europe Conference, Aug 2024, Athens (Greece), Greece. ⟨10.3233/SHTI240747⟩. ⟨hal-04682928⟩
Annelies Braffort, Patrice Dalle. Sign language processing: models, representations, tools for video analysis, for signing avatars and for communication. 2nd International Society for Gesture Studies (ISGS 2005) conference: “Interacting bodies”, 2005, Lyon, France. ⟨hal-04678548⟩
Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Récentes avancées de l’inférence en langue naturelle pour les essais cliniques. Journée Santé et IA 2024, AFIA; L3I; La Rochelle Université, Jul 2024, La Rochelle, France. ⟨hal-04667736⟩
Leticia Rebollo Couto, Albert Rilliard. Variación pragmática, traducción audiovisual y estrategias conversacionales para el doblaje: léxico coloquial y palabras tabús. Cadernos de Tradução , 2024, Sex, Taboo, and Swearing: Forbidden Words in Audiovisual Translation, 44 (2), pp.1-28. ⟨10.5007/2175-7968.2024.e99158⟩. ⟨hal-04668979⟩
Agata Savary, Daniel Zeman, Verginica Barbu Mititelu, Anabela Barreiro, Olesea Caftanatov, et al.. UniDive: A COST Action on Universality, Diversity and Idiosyncrasy in Language Technology. 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages, May 2024, Torino, Italy. ⟨hal-04667545⟩
Najet Hadj Mohamed, Agata Savary, Cherifa Ben Khelil, Jean-Yves Antoine, Iskandar Keskes, et al.. Lexicons Gain the Upper Hand in Arabic MWE Identification. Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024, May 2024, Torino, Italy. ⟨hal-04667546⟩
Bui Van-Tuan, Agata Savary. Cross-type French Multiword Expression Identification with Pre-trained Masked Language Models. 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Turin, Italy. pp.4198-4204. ⟨hal-04667119⟩
Natalia Kalashnikova. Towards detection of nudges in Human-Human and Human-Machine interactions. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG031⟩. ⟨tel-04663129⟩
Louis Estève, Agata Savary, Thomas Lavergne. Vector Spaces for Quantifying Disparity of Multiword Expressions in Annotated Text. Association for Computational Linguistics – Student Research Workshop, Aug 2024, Bangkok, Thailand. ⟨hal-04660179⟩
Annelies Braffort. L’héritage scientifique de Patrice Dalle : le traitement automatique des langues des signes au service de l’enseignement en LSF. La main de Thôt : théories, enjeux et pratiques de la traduction, 2024, 11. ⟨hal-04256752⟩
Clément Morand, Aurélie Névéol, Anne-Laure Ligozat. MLCA: a tool for Machine Learning Life Cycle Assessment. 2024 International Conference on ICT for Sustainability (ICT4S), Jun 2024, Stockholm, Sweden. ⟨hal-04643414⟩
Philippe Boula de Mareüil, Antonio Romano, Marc Evrard, Alexandre François. Cartografia di innovazioni rispetto al latino attraverso un atlante sonoro dell’Europa. Erica Autelli. Il patrimonio linguistico storico della Liguria 2, InSedicesimo, pp.51-62, 2024. ⟨hal-04644943⟩
Jenny Copara, Nona Naderi, Gilles Falquet, Douglas Teodoro. A data-driven assessment of biomedical terminology evolution using information theoretical and network analysis approaches. 2024. ⟨hal-04644071⟩
Constant Bonard, Gustave Cortal. Improving Language Models for Emotion Analysis: Insights from Cognitive Science. Proceedings of the Workshop on Cognitive Modeling and Computational Linguistics, Association for Computational Linguistics, Aug 2024, Bangkok, Thailand. pp.264-277. ⟨hal-04624340v3⟩
Camille Challant, Michael Filhol. Extension d’AZee avec des règles de production concernant les gestes non-manuels pour la langue des signes française. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.410-421. ⟨hal-04623032⟩
Clémence Sebe, Sarah Cohen-Boulakia, Olivier Ferret, Aurélie Névéol. Extraction d’entités nommées décrivant des chaînes de traitement bioinformatiques dans des articles scientifiques en anglais. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.422-434. ⟨hal-04623033⟩
Rémi Uro, Albert Rilliard, David Doukhan, Marie Tahon, Antoine Laurent. Évaluation perceptive de l’anticipation de la prise de parole lors d’interactions dialogiques en français. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Mathieu Balaguer; Nihed Bendahman; Lydia-Mai Ho-dac; Julie Mauclair; Jose G Moreno; Julien Pinquier., Jul 2024, Toulouse, France. pp.390-400. ⟨hal-04623090⟩
Marco Naguib, Aurélie Névéol, Xavier Tannier. Reconnaissance d’entités cliniques en few-shot en trois langues. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.169-197. ⟨hal-04623016v2⟩
Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud. Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.112-121. ⟨hal-04623064⟩
François Buet, Camille Guinaudeau, Cyril Grouin, Sahar Ghannay, Shin’Ichi Satoh. Utiliser l’explicabilité des modèles pour mettre en évidence les expressions genrées dans la parole. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.695-707. ⟨hal-04623052⟩
Atilla Kaan Alkan, Felix Grezes, Cyril Grouin, Fabian Schüssler, Pierre Zweigenbaum. astroECR : enrichissement d’un corpus astrophysique en entités nommées, coréférences et relations sémantiques. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.720-733. ⟨hal-04623049⟩
Thomas Gerald, Louis Tamames, Sofiane Ettayeb, Patrick Paroubek, Anne Vilnat. CQuAE : Un nouveau corpus de question-réponse pour l’enseignement. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.50-63. ⟨hal-04623009⟩
Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan, Sophie Rosset. Les petits modèles sont bons : une étude empirique de classification dans un contexte zero-shot. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.113-129. ⟨hal-04623012v2⟩
Hugo Boulanger, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. Génération contrôlée de cas cliniques en français à partir de données médicales structurées. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.435-448. ⟨hal-04623034⟩
Emmett Strickland, Anne Lacheret-Dujour, Marc Evrard, Sylvain Kahane, Dana Aubakirova, et al.. De nouvelles méthodes pour l’exploration de l’interface syntaxe-prosodie : un treebank intonosyntaxique et un système de synthèse pour le pidgin nigérian. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.376-383. ⟨hal-04623029⟩
Nadège Alavoine, Gaëlle Laperrière, Christophe Servan, Sahar Ghannay, Sophie Rosset. Nouvelle tâche sémantique pour le corpus de compréhension de parole en français MEDIA. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.470-480. ⟨hal-04623097⟩
Nadège Alavoine, Maximin Coavoux, Emmanuelle Esperança-Rodier, Romane Gallienne, Carlos-Emiliano González-Gallardo, et al.. Sur les limites de l’identification par l’humain de textes générés automatiquement. 35èmes Journées d’Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.18-19. ⟨hal-04623002⟩