STL

Sciences et Technologies des Langues

Coordination : Aurélie Névéol

Le département Sciences et Technologies des Langues étudie des questions fondamentales relatives aux systèmes linguistiques par l’exploitation de larges corpus collectés, annoté et enrichis de manière non-supervisée ou semi-supervisée par des modèles d’apprentissage statistique adaptés au matériau linguistique.

Ces modèles permettent d’étudier le fonctionnement des langues, leurs variations (phonétiques-phonologiques, morphologiques-lexicales, syntaxiques et sémantiques) synchroniques et diachroniques, diaphasiques et diatopiques ainsi que de soulever des questions relatives à leur acquisition en tant que langues maternelles ou secondes. Enfin, le département développe les grandes applications du traitement des langues :reconnaissance vocale, traduction automatique, recherche d’information, agents conversationnels, qui portent des enjeux sociétaux (sauvegarde des langues en danger, outillage de personnes en situation de handicap, aide au traitement de l’information et de la connaissance médicale) et éthiques de plus en plus importants.

Cette approche de la Langue et des langues couvre ainsi un large spectre, des recherches les plus fondamentales aux plus appliquées, dans une grande variété de médias (journaux, médias sociaux, vidéo, téléphone) et toutes les modalités (écrit, parole et signe).

Ces recherches sont fortement pluridisciplinaires et rassemblent des communautés diverses relevant de l’informatique, des sciences de l’ingénieur et des sciences humaines et sociales, qui se retrouvent autour de l’étude de la langue par l’exploitation de corpus et la culture de l’évaluation quantitative, deux marqueurs forts de leur activité de recherche

Les équipes

Jusqu’en 2023, le département comptait deux équipes : ILES et TLP. Ces deux équipes se sont restructurées ainsi :

Les pages de contenu sont en cours de rédaction.

Equipes

Actualités

Publications récentes

  • Article dans une revue

    Luma da Silva Miranda, João Antônio de Moraes, Albert Rilliard. Visual channel facilitates the comprehension of the intonation of Brazilian Portuguese wh-questions and wh-exclamations: evidence from congruent and incongruent stimuli. Language and Cognition, 2024, pp.1-21. ⟨10.1017/langcog.2024.16⟩. ⟨hal-04538371⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials. 2024. ⟨hal-04536273⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Djegdjiga Amazouz, Martine-Adda Decker, Lori Lamel. Variation du voisement des occlusives orales en code-switching: analyses par ABX automatique et mesures acoustiques. Journées d’Études sur la Parole – JEP2022, Jun 2022, Noirmoutier, France. ⟨hal-03703081⟩

    STL

    Année de publication

    Disponible en libre accès

  • Pré-publication, Document de travail

    Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi. SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials. 2024. ⟨hal-04536600⟩

    STL

    Année de publication

  • Communication dans un congrès

    Karën Fort, Laura Alonso Alemany, Luciana Benotti, Julien Bezançon, Claudia Borg, et al.. Your Stereotypical Mileage may Vary: Practical Challenges of Evaluating Biases in Multiple Languages and Cultural Contexts. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, May 2024, Turin (Italie), Italy. ⟨hal-04537096⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Paul Lerner, Cyril Grouin. INCLURE: a Dataset and Toolkit for Inclusive French Translation. The 17th Workshop on Building and Using Comparable Corpora (BUCC @ LREC 2024), 2024, Turin, Italy. ⟨hal-04531938⟩

    STL

    Année de publication

    Disponible en libre accès

  • Proceedings/Recueil des communications

    Karën Fort, Aurélie Névéol. Ethics and NLP: 10 years after. Journée d’études ATALA “éthique et TALTraitement Automatique des langues : 10 ans après”, 2024. ⟨hal-04533870⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Paul Lerner, Olivier Ferret, Camille Guinaudeau. Cross-modal Retrieval for Knowledge-based Visual Question Answering. 46th European Conference on Information Retrieval (ECIR 2024), 2024, Glasgow, United Kingdom. ⟨hal-04384431⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Tomohiro Nishiyama, Lisa Raithel, Roland Roller, Pierre Zweigenbaum, Eiji Aramaki. Assessing Authenticity and Anonymity of Synthetic User-generated Content in the Medical Domain. Workshop on Computational Approaches to Language Data Pseudonymization (CALD-pseudo), Mar 2024, St. Julian’s, Malta. pp.8-17. ⟨hal-04528240⟩

    STL

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Nadège Alavoine, Gaëlle Laperriere, Christophe Servan, Sahar Ghannay, Sophie Rosset. New Semantic Task for the French Spoken Language Understanding MEDIA Benchmark. The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), May 2024, Torino, Italy. ⟨hal-04523286⟩

    STL

    Année de publication

    Disponible en libre accès