STL

Sciences et Technologies des Langues

Coordination : Aurélie Névéol

Le département Sciences et Technologies des Langues étudie des questions fondamentales relatives aux systèmes linguistiques par l’exploitation de larges corpus collectés, annoté et enrichis de manière non-supervisée ou semi-supervisée par des modèles d’apprentissage statistique adaptés au matériau linguistique.

Ces modèles permettent d’étudier le fonctionnement des langues, leurs variations (phonétiques-phonologiques, morphologiques-lexicales, syntaxiques et sémantiques) synchroniques et diachroniques, diaphasiques et diatopiques ainsi que de soulever des questions relatives à leur acquisition en tant que langues maternelles ou secondes. Enfin, le département développe les grandes applications du traitement des langues :reconnaissance vocale, traduction automatique, recherche d’information, agents conversationnels, qui portent des enjeux sociétaux (sauvegarde des langues en danger, outillage de personnes en situation de handicap, aide au traitement de l’information et de la connaissance médicale) et éthiques de plus en plus importants.

Cette approche de la Langue et des langues couvre ainsi un large spectre, des recherches les plus fondamentales aux plus appliquées, dans une grande variété de médias (journaux, médias sociaux, vidéo, téléphone) et toutes les modalités (écrit, parole et signe).

Ces recherches sont fortement pluridisciplinaires et rassemblent des communautés diverses relevant de l’informatique, des sciences de l’ingénieur et des sciences humaines et sociales, qui se retrouvent autour de l’étude de la langue par l’exploitation de corpus et la culture de l’évaluation quantitative, deux marqueurs forts de leur activité de recherche

Les équipes

Jusqu’en 2023, le département comptait deux équipes : ILES et TLP. Ces deux équipes se sont restructurées ainsi :

Les pages de contenu sont en cours de rédaction.

Equipes

Actualités

Publications récentes

  • Communication dans un congrès

    Jean-Sylvain Liénard, Albert Rilliard, Marc Evrard, Quentin Le Tellier. Variabilité du signal de parole en fonction de la Force de Voix en situation d’interaction orale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05366097⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Impact de la parole expressive sur l’estimation de l’intensité vocale. CFA 2025 – 17e Congrès Français d’Acoustique, Société Française d’Acoustique (SFA), Apr 2025, Paris, France. ⟨hal-05365670⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Quentin Le Tellier, Marc Evrard, Albert Rilliard, Jean-Sylvain Liénard. Robust Vocal Intensity Prediction: Overcoming Dataset Bias with Pretrained Deep Models. Interspeech 2025, Odette Scharenborg; Catharine Oertel; Khiet Truong, Aug 2025, Rotterdam, Netherlands. pp.1728-1732, ⟨10.21437/Interspeech.2025-2311⟩. ⟨hal-05359416⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Fabrizio Nunnari, Cristina Luna Jiménez, Rosalee Wolfe, John Mcdonald, Michael Filhol, et al.. 9th Workshop on Sign Language Translation and Avatar Technologies (SLTAT 2025). 9th workshop on Sign Language Translation and Avatar Technologies (SLTAT), Sep 2025, Berlin, Germany. ⟨10.1145/3742886.3759656⟩. ⟨hal-05344671⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Thibault Fabacher, Erik-Andre Sauleau, Emmanuelle Arcay, Bineta Faye, Maxime Alter, et al.. Efficient extraction of medication information from clinical notes: an evaluation in 2 languages. Journal of the American Medical Informatics Association, 2025, pp.ocaf113. ⟨10.1093/jamia/ocaf113⟩. ⟨hal-05375038⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Albert Rilliard, João Antônio De Moraes, Donna Erickson, Marine Guerry, Angelika Hönemann, et al.. Cross-cultural dimensions organizing prosodic attitudes reception. Journal of Speech Sciences, 2025, 14, pp.e025012. ⟨10.20396/joss.v14i00.20379⟩. ⟨hal-05359361⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Lautaro Estienne, Gabriel Ben Zenou, Nona Naderi, Jackie Cheung, Pablo Piantanida. Collaborative Rational Speech Act: Pragmatic Reasoning for Multi-Turn Dialog. In proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, Nov 2025, Suzhou, China. ⟨10.48550/arXiv.2507.14063⟩. ⟨hal-05347472⟩

    STL

    Année de publication

  • Communication dans un congrès

    Marco Naguib, Xavier Tannier, Aurélie Névéol. Few-shot clinical entity recognition in English, French and Spanish: masked language models outperform generative model prompting. The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024), Nov 2024, Miami, United States. pp.6829-6852, ⟨10.18653/v1/2024.findings-emnlp.400⟩. ⟨hal-05331970⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Julie Halbout, Diandra Fabre. Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), 2025, Marseille, France. pp.91-103. ⟨hal-05330660⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum. Comment évaluer un grand modèle de langue dans le domaine médical en français ?. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), 2025, Marseille, France. pp.51-67. ⟨hal-05329783⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles. 20e Conférence en Recherche d’Information et Applications (CORIA) 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL) Les 18e Rencontres Jeunes Chercheurs en RI (RJCRI), 2025, Marseille, France. pp.128-130. ⟨hal-05330645⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Eve Sauvage. SynKGP: Knowledge Graph Population with Syntactic-LLM Hybridation for Question-Answering. ECIR, Apr 2025, Lucca, Italy. pp.212-219, ⟨10.1007/978-3-031-88720-8_34⟩. ⟨hal-05344073⟩

    STL

    Année de publication

  • Communication dans un congrès

    Anca Dobrescu, Sarah Cohen-Boulakia, Nona Naderi. Attempt to rerun, reproduce and replicate Clinical Trials Sentence Classification Studies: lessons learnt. ACM REP ’25: ACM Conference on Reproducibility and Replicability, Jul 2025, Vancouver, Canada. pp.243-244, ⟨10.1145/3736731.3746133⟩. ⟨hal-05326886⟩

    BioInfo, STL

    Année de publication

  • Communication dans un congrès

    Anne-Laure Ligozat. Côté obscur de l’IA : quels bénéfices réels de l’IA pour faire face aux crises environnementales ?. GreenDays 2023, Mar 2023, Lyon, France. ⟨hal-05317071⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Anne-Laure Ligozat, Aurélie Bugeau. Méthodes d’évaluation de l’empreinte de l’IA. GreenDays 2025, Mar 2025, Rennes, France. ⟨hal-05317063⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Diandra Fabre, Julie Lascar, Julie Halbout, Yanis Ouakrim, Annelies Braffort, et al.. Exploring Sign-level Strategies to Enhance Automatic Translation of French Sign Language. IVA 2025 – 25th ACM International Conference on Intelligent Virtual Agents, Sep 2025, Berlin, Germany. ⟨10.1145/3742886.3756733⟩. ⟨hal-05280328⟩

    AMIArchitectures et modèles pour l'Interaction, STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Marco Naguib. Extraction d’information clinique : méthodes et ressources pour l’adaptation en domaine. Informatique [cs]. Université Paris-Saclay, 2025. Français. ⟨NNT : 2025UPASG054⟩. ⟨tel-05289152⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Armand Stricker, Patrick Paroubek. Chitchat as Interference: Adding User Backstories to Task-Oriented Dialogues. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA; ICCL, May 2024, Torino, Italy. pp.3203–3214. ⟨hal-05242362⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Fanny Ducel, Jeffrey André, Aurélie Névéol, Karën Fort. Introducing MascuLead: the First Gender Bias Leaderboard. EALM 2025 – Ethic and Alignment of (Large) Language Models, Jun 2025, Marseille, France. pp.12-19. ⟨hal-05282981⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. « Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français. 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2025), Jul 2025, Marseille, France. pp.1. ⟨hal-05282965⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Fanny Ducel, Maxime Amblard, Karën Fort. « De nos jours, ce sont les résultats qui comptent » : création et étude diachronique d’un corpus de revendications issues d’articles de TALTraitement Automatique des langues. TALN 2025 – 32ème Conférence sur le Traitement Automatique des Langues Naturelles, Jul 2025, Marseille, France. ⟨hal-05282966⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Yajing Feng. Continuous Recognition of Client Emotions from Speech and Text in Real-World Call Center Conversations : a Context-Aware Dataset and Empirical Study. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2025. English. ⟨NNT : 2025UPASG042⟩. ⟨tel-05241382⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Alexander Goldberg, Ihsan Ullah, Thanh Gia Hieu Khuong, Benedictus Kent Rachmat, Zhen Xu, et al.. Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS’24 Experiment. 2025. ⟨hal-05230379⟩

    AO, STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Floris Thiant, Olivia Penas, Yann Leroy, Anne-Laure Ligozat. System analysis of digital service system perimeter and its interdependencies in Life Cycle Assessment. 2025 IEEE International Symposium on Systems Engineering (ISSE 2025), Oct 2025, Palaiseau, France. ⟨hal-05240543⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Thomas Gerald, Louis Tamames, Sofiane Ettayeb, Ha-Quang Le, Patrick Paroubek, et al.. CQuAE: A new Contextualized QUestion Answering corpus on Education domain. Data and Knowledge Engineering, 2024, 151, pp.102305. ⟨10.1016/j.datak.2024.102305⟩. ⟨hal-05242257⟩

    STL

    Année de publication

  • Chapitre d'ouvrage

    Tommaso Raso, Saulo Mendes Santos, Albert Rilliard, João A. Moraes. Defining and Identifying Discourse Markers in Spontaneous Speech. Miguel Oliveira, Jr. Prosodic Interfaces – Interdisciplinary Perspectives on Sound Patterns and Human Interaction, De Gruyter, pp.65-102, 2025, 978-3-11-105990-7. ⟨10.1515/9783111060309-003⟩. ⟨hal-05230528⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémence Sebe, Sarah Cohen-Boulakia, Olivier Ferret, Aurélie Névéol. Extracting Information in a Low-resource Setting: Case Study on Bioinformatics Workflows. Symposium on Intelligent Data Analysis (IDA 2025), May 2025, Konstanz, Germany. pp.274-287, ⟨10.1007/978-3-031-91398-3_21⟩. ⟨hal-05244222⟩

    BioInfo, STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Philippe Boula de Mareüil, Paolo Roseano. A speaking atlas of the languages of the Iberian Peninsula: focus on rhythm and varieties in contact. Dialectologia, 2025, 35, pp.27-54. ⟨10.1344/dialectologia.35.2⟩. ⟨hal-05263043⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Gaël Guennebaud, Anne-Laure Ligozat, Anne-Cécile Orgerie, Matthieu Simonin. Evaluating and Reporting the Carbon Footprint of Shared Computing Platforms: Choices and Limits. ISPDC 2025 – 24th IEEE International Symposium on Parallel and Distributed Computing, Jul 2025, Rennes, France. pp.1-7. ⟨hal-05195576⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Haohua Dong, Ana Manzano Rodríguez, Camille Guinaudeau, Shin’Ichi Satoh. Fairness Without Labels: Pseudo-Balancing for Bias Mitigation in Face Gender Classification. Second workshop on Fairness and ethics towards transparent AI: facing the chalLEnge through model Debiasing (FAILED) at the 2025 International Conference on Computer Vision, Oct 2025, Honolulu, HI, United States. ⟨hal-05210445⟩

    STL

    Année de publication

    Disponible en libre accès