L’équipe SEME (sémantique et extraction d’information) s’intéresse aux problématiques d’accès au sens contenu dans les productions langagières, dans un objectif d’analyse, de compréhension, de modélisation, ou de production. Nous appliquons nos recherches à la modalité écrite, sans restriction sur le support d’origine (texte produit au format électronique, ou provenant d’une transcription de la parole, ou encore d’une reconnaissance optique) et travaillons sur des productions en domaine ouvert ou de spécialité tel que le domaine médical. Nous utilisons des approches aussi bien linguistiques que relevant d’un apprentissage statistique ou neuronal. Précisément sur ce dernier type d’approche, nous nous intéressons au coût environnemental qu’elles génèrent en traitement automatique des langues, tant lors de leur production que lors de leur utilisation.
L’équipe se compose de 10 membres permanents (chercheurs CNRS, enseignants-chercheurs à l’Université Paris-Saclay, à l’ENSIIE, et à l’Université Sorbonne Paris-Nord), 14 doctorants, et 3 post-doctorants ou CDD. Nous entretenons des liens avec les industriels (thèses en contrat CIFRE, projets de recherche) et organisons régulièrement des manifestations scientifiques (conférence TALN, ateliers et workshops scientifiques, etc.).
Philippe Boula de Mareüil, Albert Rilliard, Frédéric Vernier. Valorisation de la diversité linguistique à travers un atlas sonore. Myriam Caressa; Christophe Doubovetzky. Langue(s) et droit(s). Enjeux et paradoxes en France, L’Harmattan, pp.177-188, 2025, Logiques Juridiques, 978-2-336-55319-1. ⟨hal-05464189⟩
Natalia Grabar, Thierry Hamon, Emmanuelle Canut. Le langage simplifié pour le public FLE : des critères linguistiques à interroger. Éducation, formation et communication. L’accompagnement des publics en exil. Problèmes de langue et modalités de communication, A paraître, 2865310019. ⟨hal-05465059⟩
Anjani Dhrangadhariya, Roger Hilfiker, Karl Martin Sattelmayer, Nona Naderi, Katia Giacomino, et al.. RoBuster: A Corpus Annotated with Risk of Bias Text Spans in Randomized Controlled Trials in Physiotherapy and Rehabilitation (forthcoming/in press). JMIR Formative Research, 2023, ⟨10.2196/55127⟩. ⟨hal-05462769⟩
Fanny Ducel, Karën Fort, Aurélie Névéol. La linguistique appliquée pour une IA plus éthique. NéALA 2025 – Colloque sur Naturel et Artificiel en Linguistique Appliquée : une époque de paradoxes, Jul 2025, Nancy, France. ⟨hal-05457534⟩
Luciana Benotti, Fanny Ducel, Karën Fort, Guido Ivetta, Zhijing Jin, et al.. Navigating Ethical Challenges in NLP: Hands-on strategies for students and researchers. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 5: Tutorial Abstracts), 2025, ⟨10.18653/v1/2025.acl-tutorials.5⟩. ⟨hal-05457524⟩
Simon Devauchelle, Albert Rilliard, David Doukhan, Lucas Ondel Yang. Variation of Perceived Voice Pitch Across Time Periods, Gender, and Age in French Media Archives. Valentina De Iacovo; Bianca Maria De Paolis; Daniela Mereu. The voice in the media and new technologies, 12 (004), Officinaventuno, pp.47-71, 2024, Studi Associazione Italiana Scienze della Voce, 978-88-97657-73-6. ⟨10.17469/O2112AISV000004⟩. ⟨hal-05450567⟩
Mathieu Laï-King, Patrick Paroubek. Pre-training data selection for biomedical domain adaptation using journal impact metrics. 23rd Workshop on Biomedical Natural Language Processing, Aug 2024, Bangkok, Thailand. pp.363-369, ⟨10.18653/v1/2024.bionlp-1.27⟩. ⟨hal-05447036⟩
Adrien Berthelot, Tiago da Silva Barros, Laurent Lefèvre, Anne-Laure Ligozat, Emeline Pegon. Multi-criteria and multi-stage environmental study of Pl@ntnet service for the year 2024. Inria Lyon. 2026. ⟨hal-05448455⟩
François Buet, Camille Guinaudeau, Cyril Grouin, Sahar Ghannay, Shin’ichi Satoh. XAI for Gender Representation in Media Analysis. 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025), IEEE Signal Processing Society, Apr 2025, Hyderabad, India. pp.1-5, ⟨10.1109/ICASSP49660.2025.10888945⟩. ⟨hal-05442625⟩
Phrashant Khatri, Hansjörg Mixdorff, Preeti Rao, Albert Rilliard. Recognition of Audio-Visual Attitudes. 36. Konferenz Elektronische Sprachsignalverarbeitung (ESSV), Department of Speech Science and Phonetics of the Institute of Music, Media and Speech Sciences at the Martin Luther University Halle-Wittenberg in Halle/Saale; Central German Association for Speech Science and Speech Education, Mar 2025, Halle / Saale, Germany. pp.19-26. ⟨hal-05426157⟩
Luc Pommeret, Sophie Rosset, Christophe Servan, Sahar Ghannay. AtomicEval: Evaluation Framework for Atomic Proposition Autonomy with French Propositioner. 10th Junior Conference on Data Sciences and Engineering, Sep 2025, Gif-sur-Yvette, France. . ⟨hal-05414939⟩
Michael Filhol. AZVD as a Sign Language writing system proxy, and the potential evolution. Proceedings of Grapholinguistics in the 21st century, Oct 2024, Venice, Italy. ⟨hal-05344585⟩
Bran Knowles, Vicki L Hanson, Christoph Becker, Mike Berners-Lee, Andrew A Chien, et al.. Climate Change: What is Computing’s Responsibility?. 2025, pp.1-18. ⟨10.4230/DagMan.11.1.1⟩. ⟨hal-05369257⟩
Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Impact de la parole expressive sur l’estimation de l’intensité vocale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05365670⟩
Jean-Sylvain Liénard, Albert Rilliard, Marc Evrard, Quentin Le Tellier. Variabilité du signal de parole en fonction de la Force de Voix en situation d’interaction orale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05366097⟩
Fabrizio Nunnari, Cristina Luna Jiménez, Rosalee Wolfe, John Mcdonald, Michael Filhol, et al.. 9th Workshop on Sign Language Translation and Avatar Technologies (SLTAT 2025). 9th workshop on Sign Language Translation and Avatar Technologies (SLTAT), Sep 2025, Berlin, Germany. ⟨10.1145/3742886.3759656⟩. ⟨hal-05344671⟩
Thibault Fabacher, Erik-Andre Sauleau, Emmanuelle Arcay, Bineta Faye, Maxime Alter, et al.. Efficient extraction of medication information from clinical notes: an evaluation in 2 languages. Journal of the American Medical Informatics Association, 2025, pp.ocaf113. ⟨10.1093/jamia/ocaf113⟩. ⟨hal-05375038⟩
Albert Rilliard, João Antônio De Moraes, Donna Erickson, Marine Guerry, Angelika Hönemann, et al.. Cross-cultural dimensions organizing prosodic attitudes reception. Journal of Speech Sciences, 2025, 14, pp.e025012. ⟨10.20396/joss.v14i00.20379⟩. ⟨hal-05359361⟩
David Doukhan, Anissa-Claire Adgharouamane, Marlène Coulomb-Gully, Simon Devauchelle, Benjamin Elie, et al.. Voyage dans le temps : des archives télévision et radio pour observer l’évolution des voix. Culture et recherche, 2025, 149, pp.104-107. ⟨hal-05373155⟩
Lautaro Estienne, Gabriel Ben Zenou, Nona Naderi, Jackie Cheung, Pablo Piantanida. Collaborative Rational Speech Act: Pragmatic Reasoning for Multi-Turn Dialog. Empirical Methods in Natural Language Processing (EMNLP 2025), Nov 2025, Suzhou, China. pp.22520-22534, ⟨10.18653/v1/2025.emnlp-main.1145⟩. ⟨hal-05347472⟩
Marco Naguib, Xavier Tannier, Aurélie Névéol. Few-shot clinical entity recognition in English, French and Spanish: masked language models outperform generative model prompting. The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024), Nov 2024, Miami, United States. pp.6829-6852, ⟨10.18653/v1/2024.findings-emnlp.400⟩. ⟨hal-05331970⟩
Julie Halbout, Diandra Fabre. Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), Jul 2025, Marseille, France. pp.91-103. ⟨hal-05330660⟩
Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum. Comment évaluer un grand modèle de langue dans le domaine médical en français ?. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), Jul 2025, Marseille, France. pp.51-67. ⟨hal-05329783⟩
Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), Jul 2025, Marseille, France. pp.128-130. ⟨hal-05330645⟩
Eve Sauvage. SynKGP: Knowledge Graph Population with Syntactic-LLM Hybridation for Question-Answering. ECIR, Apr 2025, Lucca, Italy. pp.212-219, ⟨10.1007/978-3-031-88720-8_34⟩. ⟨hal-05344073⟩
Anne-Laure Ligozat. Côté obscur de l’IA : quels bénéfices réels de l’IA pour faire face aux crises environnementales ?. GreenDays 2023, Mar 2023, Lyon, France. ⟨hal-05317071⟩