STL

Sciences et Technologies des Langues

Coordination : Aurélie Névéol

Le département Sciences et Technologies des Langues étudie des questions fondamentales relatives aux systèmes linguistiques par l’exploitation de larges corpus collectés, annoté et enrichis de manière non-supervisée ou semi-supervisée par des modèles d’apprentissage statistique adaptés au matériau linguistique.

Ces modèles permettent d’étudier le fonctionnement des langues, leurs variations (phonétiques-phonologiques, morphologiques-lexicales, syntaxiques et sémantiques) synchroniques et diachroniques, diaphasiques et diatopiques ainsi que de soulever des questions relatives à leur acquisition en tant que langues maternelles ou secondes. Enfin, le département développe les grandes applications du traitement des langues :reconnaissance vocale, traduction automatique, recherche d’information, agents conversationnels, qui portent des enjeux sociétaux (sauvegarde des langues en danger, outillage de personnes en situation de handicap, aide au traitement de l’information et de la connaissance médicale) et éthiques de plus en plus importants.

Cette approche de la Langue et des langues couvre ainsi un large spectre, des recherches les plus fondamentales aux plus appliquées, dans une grande variété de médias (journaux, médias sociaux, vidéo, téléphone) et toutes les modalités (écrit, parole et signe).

Ces recherches sont fortement pluridisciplinaires et rassemblent des communautés diverses relevant de l’informatique, des sciences de l’ingénieur et des sciences humaines et sociales, qui se retrouvent autour de l’étude de la langue par l’exploitation de corpus et la culture de l’évaluation quantitative, deux marqueurs forts de leur activité de recherche

Les équipes

Jusqu’en 2023, le département comptait deux équipes : ILES et TLP. Ces deux équipes se sont restructurées ainsi :

Les pages de contenu sont en cours de rédaction.

Equipes

Actualités

Publications récentes

  • Communication dans un congrès

    Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel, Aurélie Névéol. Evaluating the Confidentiality of Synthetic Clinical Texts Generated by Language Models. 23rd International Conference on Artificial Intelligence in Medicine (AIME), Jun 2025, Pavie, Italy. ⟨hal-05046326⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Lisa Raithel, Philippe Thomas, Bhuvanesh Verma, Roland Roller, Hui-Syuan Yeh, et al.. Overview of #SMM4H 2024 – Task 2: Cross-Lingual Few-Shot Relation Extraction for Pharmacovigilance in French, German, and Japanese. The 9th Social Media Mining for Health Research and Applications (SMM4H 2024) Workshop and Shared Tasks, Association for Computational Linguistics, Aug 2024, Bangkok, Thailand. pp.170-182. ⟨hal-04781015⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. Am I eligible? Natural Language Inference for Clinical Trial Patient Recruitment: the Patient’s Point of View. 2025. ⟨hal-04992084⟩

    STL

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Mathieu Constant, Marie Candito, Yannick Parmentier, Carlos Ramisch, Agata Savary. Construction, exploitation et exploration de ressources linguistiques pour le traitement automatique des expressions polylexicales en français : le projet PARSEME-FR. Lidia Becker; Julia Kuhn; Christina Ossenkop; Claudia Polzin-Haumann; Elton Prifti. Digitale romanistische Sprachwissenschaft: Stand und Perspektiven, Narr Francke Attempto Verlag GmbH + Co. KG, pp.219-250, 2023, Romanistisches Kolloquium, 978-3-8233-8506-6. ⟨hal-04995189⟩

    ILES, STL

    Année de publication

  • Thèse

    Rémi Uro. Détection et caractérisation des interruptions dans les interactions orales pour la description du comportement des femmes et des hommes dans les contenus audiovisuels. Informatique et langage [cs.CL]. Université Paris-Saclay, 2024. Français. ⟨NNT : 2024UPASG055⟩. ⟨tel-04994439⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Amel Fraisse, Patrick Paroubek, Ramit Goyal, Nassreddine Znaidi. Measuring Multilingualism in Online Public Access Catalogs. The ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL), Dec 2024, Hong Kong, China. ⟨hal-04986773⟩

    ILES, STL

    Année de publication

  • Communication dans un congrès

    Manon Scholivet, Agata Savary, Louis Estève, Marie Candito, Carlos Ramisch. SELEXINI – a large and diverse automatically parsed corpus of French. Building and Using Comparable Corpora (BUCC), Jan 2025, Abu DHABI, United Arab Emirates. ⟨hal-04978746⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Hui-Syuan Yeh. Prompt-based Relation Extraction for Pharmacovigilance. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG097⟩. ⟨tel-04968043⟩

    STL

    Année de publication

    Disponible en libre accès

  • Rapport

    Sylvain Bouveret, Aurélie Bugeau, Frenoux Emmanuelle, Julien Lefevre, Laurent Lefèvre, et al.. Quiz sur les impacts environnementaux du numérique. EcoInfo. 2025, pp.1-5. ⟨hal-04960328v2⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Camille Challant. Représentation formelle avec AZee et contraintes grammaticales pour la langue des signes française. Théorie et langage formel [cs.FL]. Université Paris-Saclay, 2024. Français. ⟨NNT : 2024UPASG086⟩. ⟨tel-04957486⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Zheng Zhang, Brian Denton, Xiaolan Xie. Branch and Price for Chance-Constrained Bin Packing. INFORMS Journal on Computing, 2020, 32 (3), pp.547-564. ⟨10.1287/ijoc.2019.0894⟩. ⟨hal-04941861⟩

    ILES, STL

    Année de publication

  • Communication dans un congrès

    Simon Devauchelle, David Doukhan, Lucas Ondel Yang, Benjamin Élie, Albert Rilliard. Estimation automatique de caractéristiques acoustiques pour l’étude diachronique du français oral dans les médias. Atelier DAHLIA: DigitAl Humanities and cuLtural herItAge: data and knowledge management and analysis, Claudia Marinica; Fabrice Guillet; Florent Laroche, Jan 2025, Strasbourg, France. ⟨hal-04938377⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Rémi Uro, David Doukhan. Pendant le confinement, le temps de parole des femmes a baissé à la télévision et à la radio. La revue des médias, 2020. ⟨hal-04906221⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. “Women do not have heart attacks!” Gender Biases in Automatically Generated Clinical Cases in French. NAACL 2025 – Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics, Apr 2025, Albuquerque, United States. ⟨hal-04938811⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Clément Bernard, Guillaume Postic, Sahar Ghannay, Fariza Tahi. RNA-TorsionBERT: leveraging language models for RNA 3D torsion angles prediction. Bioinformatics, 2025, 41 (1), pp.btaf004. ⟨10.1093/bioinformatics/btaf004⟩. ⟨hal-04911519⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Marion Ficher, Tom Bauer, Anne-Laure Ligozat. A comprehensive review of the end-of-life modeling in LCAs of digital equipment. International Journal of Life Cycle Assessment, 2024, 30 (1), pp.20-42. ⟨10.1007/s11367-024-02367-x⟩. ⟨hal-04924691⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Atilla Kaan Alkan. Natural Language Processing for Analyzing Messages of Astrophysical Observations. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG114⟩. ⟨tel-04928511⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Clément Bernard, Guillaume Postic, Sahar Ghannay, Fariza Tahi. Has AlphaFold3 achieved success for RNAs?. 2025. ⟨hal-04911522⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Léa-Marie Lam-Yee-Mui. Modélisations pour la reconnaissance de la parole à données contraintes. Traitement du signal et de l’image [eess.SP]. Université Paris-Saclay, 2024. Français. ⟨NNT : 2024UPASG075⟩. ⟨tel-04918814⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Clément Bernard, Guillaume Postic, Sahar Ghannay, Fariza Tahi. Has AlphaFold 3 achieved success for RNA?. Acta crystallographica Section D : Structural biology [1993-..], 2025, 81 (2), pp.49–62. ⟨10.1107/S2059798325000592⟩. ⟨hal-04919467⟩

    STL

    Année de publication

  • Chapitre d'ouvrage

    Philippe Boula de Mareüil, Plínio A. Barbosa. Picos melódicos pretônicos em final de enunciado no português brasileiro: um estudo quantitativo. Dermeval da Hora; Ángela Helmer. Interseções Linguísticas: Estudos Diversos, Líquido Editorial, pp.71-85, 2023, ALFAL, 9786599924804. ⟨hal-04893646⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Douglas Teodoro, Nona Naderi, Anthony Yazdani, Boya Zhang, Alban Bornet. A Scoping Review of Artificial Intelligence Applications in Clinical Trial Risk Assessment. 2025. ⟨hal-04913991⟩

    STL

    Année de publication

  • Pré-publication, Document de travail

    Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Entity-aware cross-modal pretraining for Knowledge-Based Visual Question Answering. 2024. ⟨cea-04910767⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Paritosh Sharma. Sign Language synthesis by a decreasing granularity system from AZee. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG092⟩. ⟨tel-04908078⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Laetitia Biscarrat, David Doukhan, Cyril Grouin. De Loft Story aux Marseillais à Dubaï : apport des méthodes d’analyse automatique pour la description des évolutions du dispositif télévisuel. Colloque ”La téléréalité, entre média, événement et société”, part of 89e Congrès de l’Association canadienne-française pour l’avancement des sciences (ACFAS), Association canadienne-française pour l’avancement des sciences (ACFAS), 2022, Montreal, Canada. ⟨hal-04906923⟩

    STL

    Année de publication

  • Communication dans un congrès

    Laetitia Biscarrat, David Doukhan, Cyril Grouin. De Loft Story aux Marseillais à Dubaï : 20 ans de télé-réalité, 20 ans de sexisme ? Apport des méthodes d’analyse automatique pour une approche comparative. Première journée d’études de l’Arcom, ARCOM, Nov 2022, Paris, France. ⟨hal-04905959⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Rémi Uro, Marie Tahon, David Doukhan, Albert Rilliard. Comprendre les phénomènes permettant la gestion des tours de parole dans les contenus de médias audiovisuels. Journée commune AFIA-TLH / AFCP – “Extraction de connaissances interprétables pour l’étude de la communication parlée”, Corinne Fredouille; Maëva Garnier; Olivier Perrotin; Marie Tahon, Dec 2023, Avignon, France. ⟨hal-04906679⟩

    STL, TLP

    Année de publication

  • Autre publication scientifique

    Louis Estève, Kaja Dobrovoljc. A new pipeline for measuring diversity across various linguistic levels. 2025. ⟨hal-04886792⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Leticia Rebollo Couto, Albert Rilliard. Variação Pragmática e Diminutivização: intensificação e atenuação de atos expressivos e diretivos para a dublagem de animação em português, espanhol e francês. IV Colloque International VariaR 2024, Université Paul-Valéry Montpellier 3, Jun 2024, Montpellier, France. pp.43-44, ⟨10.3726/978-3-0351-0740-1⟩. ⟨hal-04874595⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Sofiya Kobylyanskaya. Towards multimodal assessment of L2 level : speech and eye tracking features in a cross-cultural setting. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG111⟩. ⟨tel-04900961⟩

    STL

    Année de publication

    Disponible en libre accès