STL

Sciences et Technologies des Langues

Coordination : Aurélie Névéol

Le département Sciences et Technologies des Langues étudie des questions fondamentales relatives aux systèmes linguistiques par l’exploitation de larges corpus collectés, annoté et enrichis de manière non-supervisée ou semi-supervisée par des modèles d’apprentissage statistique adaptés au matériau linguistique.

Ces modèles permettent d’étudier le fonctionnement des langues, leurs variations (phonétiques-phonologiques, morphologiques-lexicales, syntaxiques et sémantiques) synchroniques et diachroniques, diaphasiques et diatopiques ainsi que de soulever des questions relatives à leur acquisition en tant que langues maternelles ou secondes. Enfin, le département développe les grandes applications du traitement des langues :reconnaissance vocale, traduction automatique, recherche d’information, agents conversationnels, qui portent des enjeux sociétaux (sauvegarde des langues en danger, outillage de personnes en situation de handicap, aide au traitement de l’information et de la connaissance médicale) et éthiques de plus en plus importants.

Cette approche de la Langue et des langues couvre ainsi un large spectre, des recherches les plus fondamentales aux plus appliquées, dans une grande variété de médias (journaux, médias sociaux, vidéo, téléphone) et toutes les modalités (écrit, parole et signe).

Ces recherches sont fortement pluridisciplinaires et rassemblent des communautés diverses relevant de l’informatique, des sciences de l’ingénieur et des sciences humaines et sociales, qui se retrouvent autour de l’étude de la langue par l’exploitation de corpus et la culture de l’évaluation quantitative, deux marqueurs forts de leur activité de recherche

Les équipes

Jusqu’en 2023, le département comptait deux équipes : ILES et TLP. Ces deux équipes se sont restructurées ainsi :

Les pages de contenu sont en cours de rédaction.

Equipes

Actualités

Publications récentes

  • Communication dans un congrès

    Leticia Rebollo Couto, Albert Rilliard. Variação Pragmática e Diminutivização: intensificação e atenuação de atos expressivos e diretivos para a dublagem de animação em português, espanhol e francês. IV Colloque International VariaR 2024, Université Paul-Valéry Montpellier 3, Jun 2024, Montpellier, France. pp.43-44, ⟨10.3726/978-3-0351-0740-1⟩. ⟨hal-04874595⟩

    STL

    Année de publication

    Disponible en libre accès

  • Thèse

    Sofiya Kobylyanskaya. Towards multimodal assessment of L2 level : speech and eye tracking features in a cross-cultural setting. Computation and Language [cs.CL]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG111⟩. ⟨tel-04900961⟩

    STL

    Année de publication

    Disponible en libre accès

  • Poster de conférence

    Leticia Rebollo Couto, Albert Rilliard. Variación pragmática y expresividad negativa: análisis multimodal en datos de doblaje. LingCor2024: Workshop on Spoken Corpus Linguistics, Jul 2024, Vienna, Austria. . ⟨hal-04874470⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Clémentine Bleuze, Fanny Ducel, Karën Fort, Maxime Amblard. Vers la création d’une super-intelligence » : un corpus pour étudier les revendications des articles de TALTraitement Automatique des langues. Journées de lancement LIFT 2, Nov 2024, Orléans, France. ⟨hal-04880335⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Ayoub Hammal, Benno Uthayasooriyar, Caio Corro. Few-Shot Domain Adaptation for Named-Entity Recognition via Joint Constrained k-Means and Subspace Selection. Proceedings of the 31st International Conference on Computational Linguistics (COLING 2025), Jan 2025, Abu DHABI, France. ⟨hal-04877776⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Simon Devauchelle, Albert Rilliard, David Doukhan, Lucas Ondel Yang. Describing voice in French media archives: age and gender effects on pitch and articulation characteristics. XX Convegno Nazionale AISV, LFSAG (Laboratorio di Fonetica Sperimentale “Arturo Genre”) Dipartimento di Lingue e Letterature Straniere e Culture Moderne Università degli Studi di Torino, Feb 2024, Turin (Italie), Italy. ⟨hal-04874662⟩

    STL

    Année de publication

  • Communication dans un congrès

    Donna Erickson, João Antônio De Moraes, Albert Rilliard. Dimensões das atitudes prosódicas entre culturas. V Seminário Internacional de Fonologia, Universidade Federal do Rio de Janeiro, Nov 2024, Rio de Janeiro (BR), Brazil. ⟨hal-04874627⟩

    STL

    Année de publication

  • Communication dans un congrès

    Khanh-An C Quan, Camille Guinaudeau, Shin’Ichi Satoh. Evaluating VQA Models’ Consistency in the Scientific Domain. Multimedia Modelling 2025, Jan 2025, Nara, Japan. ⟨hal-04860239⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Saumya Yadav, Elise Lincker, Caroline Huron, Stéphanie Martin, Camille Guinaudeau, et al.. Towards Inclusive Education: Multimodal Classification of Textbook Images for Accessibility. Multimedia Modelling 2025, Jan 2025, Nara, Japan. ⟨hal-04860245⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat, Aleksandra Miletic, Jean Sibille, et al.. L’avenir numérique des langues minoritaires : bilan du projet RESTAURE pour l’alsacien, l’occitan et le picard. Colloque « Langues minoritaires » : quels acteurs pour quel avenir ?, Groupe d’Etudes sur le Plurilinguisme européen (EA1339 LiLPa), Nov 2019, Strasbourg, France. ⟨hal-04864670⟩

    STL

    Année de publication

  • Article dans une revue

    Cyril Grouin, Natalia Grabar. Year 2023 in Biomedical Natural Language Processing: A Tribute to Large Language Models and Generative AI. IMIA Yearbook of Medical Informatics, 2024. ⟨hal-04865083⟩

    STL

    Année de publication

  • Communication dans un congrès

    Natalia Grabar, Thierry Hamon. Study of the propaganda techniques occurring in Russian newspaper titles in 2022. METAPOL, université de Liège, Nov 2024, Liège (Belgique), Belgium. ⟨hal-04865074⟩

    STL

    Année de publication

  • Article dans une revue

    Angèle Gayet-Ageron, Khaoula Ben Messaoud, Mark Richards, Cyril Jaksic, Julien Gobeill, et al.. Gender and geographical bias in the editorial decision-making process of biomedical journals: a case-control study. BMJ Evidence-Based Medicine, 2024, pp.bmjebm-2024-113083. ⟨10.1136/bmjebm-2024-113083⟩. ⟨hal-04865134⟩

    STL

    Année de publication

  • Communication dans un congrès

    Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Multi-Level Information Retrieval Augmented Generation for Knowledge-based Visual Question Answering. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, Nov 2024, Miami, United States. pp.16499-16513, ⟨10.18653/v1/2024.emnlp-main.922⟩. ⟨hal-04852275⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Aurélie Bugeau, Anne-Laure Ligozat. L’informatique en temps de crises environnementales : comment adapter la recherche et l’enseignement ?. 2024. ⟨hal-04850517⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Donna Erickson, Albert Rilliard, Ela Thurgood, João Antônio de Moraes, Takaaki Shochi. Acoustic and perceptual profiles of american english social affective expressions. Journal of Speech Sciences, 2024, 13, pp.e024004. ⟨10.20396/joss.v13i00.20015⟩. ⟨hal-04850040⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Clément Morand, Anne-Laure Ligozat, Aurélie Névéol. How Green Can AI Be? A Study of Trends in Machine Learning Environmental Impacts. 2024. ⟨hal-04839926v3⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Lucie Gianola. Traitement automatique des langues et linguistique de corpus pour la reconnaissance d’entités en analyse criminelle. Revue internationale de criminologie et de police technique et scientifique, 2021, LXXIV (3), pp.363-382. ⟨hal-04833123⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Poster de conférence

    Mathilde Aguiar, Ying Lai, Pierre Zweigenbaum, Nona Naderi. Constituting a dataset for applying Natural Language Inference to Chinese Clinical Trials: possible approaches and challenges. Junior Conference on Data Sciences and Engineering, Sep 2024, Gif-sur-Yvette, France. ⟨hal-04837721⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Hansjörg Mixdorff, Albert Rilliard, Navneet Nayan. Perceptual Evaluation of Attitudinal Expressions. 5th International Symposium on Applied Phonetics (ISAPh 2024), Pärtel Lippus, Sep 2024, Tartu, Estonia. pp.60-64, ⟨10.21437/ISAPh.2024-12⟩. ⟨hal-04823812⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Ilia Kuznetsov, Osama Mohammed Afzal, Koen Dercksen, Nils Dycke, Alexander Goldberg, et al.. What Can Natural Language Processing Do for Peer Review?. 2024. ⟨hal-04797652⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Fanny Ducel, Aurélie Névéol, Karën Fort. “You’ll be a nurse, my son!” Automatically Assessing Gender Biases in Autoregressive Language Models in French and Italian. Language Resources and Evaluation, 2024, ⟨10.1007/s10579-024-09780-6⟩. ⟨hal-04803403⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Lisa Raithel, Hui-Syuan Yeh, Shuntaro Yada, Cyril Grouin, Thomas Lavergne, et al.. A Dataset for Pharmacovigilance in German, French, and Japanese: Annotating Adverse Drug Reactions across Languages. Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Turin, Italy. pp.395-414. ⟨hal-04779777⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Dongfang Xu, Guillermo Lopez-Garcia, Lisa Raithel, Roland Roller, Philippe Thomas, et al.. Overview of the 9th Social Media Mining for Health Applications (#SMM4H) Shared Tasks at ACL 2024 – Large Language Models and Generalizability for Social Media NLP. The 9th Social Media Mining for Health Research and Applications (SMM4H 2024) Workshop and Shared Tasks, Association for Computational Linguistics, Aug 2024, Bangkok, Thailand. pp.183-195. ⟨hal-04781745⟩

    STL

    Année de publication

    Disponible en libre accès

  • Proceedings/Recueil des communications

    Pierre Zweigenbaum, Serge Sharoff, Reinhard Rapp. The 17th Workshop on Building and Using Comparable Corpora (BUCC) @LREC-COLING-2024. Workshop Proceedings. 17th Workshop on Building and Using Comparable Corpora (BUCC), 2024, 978-2-493814-31-9. ⟨hal-04779272⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Atilla Kaan Alkan, Felix Grezes, Cyril Grouin, Fabian Schüssler, Pierre Zweigenbaum. Enriching a Time-Domain Astrophysics Corpus with Named Entity, Coreference, and Astrophysical Relationship Annotations. Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Apr 2024, Turin, Italy. pp.6177-6188. ⟨hal-04780619⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Virgile Barthet, Marie José Aroulanda, Laura Monceaux-Cachard, Christine Jacquin, Cyril Grouin, et al.. Équilibrer qualité et quantité : comparaison de stratégies d’annotation pour la reconnaissance d’entités nommées en cardiologie. Journée Santé et IA 2024, AFIA; L3I; La Rochelle Université, Jul 2024, La Rochelle, France. ⟨hal-04780743⟩

    STL

    Année de publication

    Disponible en libre accès

  • Article dans une revue

    Clément Morand, Olivier Ridoux. CRI : A Competent Reader Imitator for detecting binomial names in an historical corpus. Lingvisticae investigationes : International Journal of Linguistics and Language, 2024, 47 (1), pp.30-67. ⟨10.1075/li.00107.mor⟩. ⟨hal-04764787⟩

    STL

    Année de publication

    Disponible en libre accès

  • Mémoire d'étudiant

    Clément Morand. Evaluation of the environmental impacts of Natural Language Processing methods. Computer Science [cs]. 2023. ⟨dumas-04758937⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Fanny Ducel, Aurélie Névéol, Karën Fort. Desiderata for Actionable Bias Research. New Perspectives on Bias and Discrimination in Language Technology, Nov 2024, Amsterdam (Pays-Bas), France. ⟨hal-04755691⟩

    STL

    Année de publication

    Disponible en libre accès