M3

Modèles, Méthodes et Multilinguisme (M3)

Coordination : Gilles ADDA

L’objet d’étude de l’équipe Modèles, Méthodes et Multilinguisme est centré sur le développement de modèles et méthodes pour aider à la fois à la découverte de propriétés fondamentales de la langue, et de mettre en œuvre des systèmes efficaces pour la traiter.

Nous nous intéressons à la langue dans toutes ses dimensions et toutes ses modalités, mais avec un focus sur la dimension multilingue. Les méthodes et modèles développés dans l’équipe sont de nature diverse : informatiques (modèles neuronaux, méthodes stochastiques ou symboliques), linguistiques (typologie des langues, diversité linguistique et universaux, affects) ou sociétaux (accessibilité,  nudges, préservation des langues, traitement des dialectes et langues peu dotées). Une perspective commune à l’équipe est de mettre en relation des universaux de la langue avec ce qui caractérise la diversité des langues et la variation, et dans une vision unifiée de la modélisation, linguistique et statistique (issue du traitement automatique) des langues.

Universaux en modélisation multilingue de la langue

Mots-clés : Diversité linguistique et universalité en modélisation ; Représentation des langues orales ; Modélisation et représentation phonétiques universelles ;  Modélisation multilingue unifiée et identification automatique de l’idiomaticité ;  Grands modèles de langue multilingues et multimodaux ;  IA générative ;  Modèles universaux et culturels des affects ;  Syntaxe des langues orales ;  Typologie quantitative ;  Corpus comparables ; Accessibilité ;  Evaluation et ressources ;  Systèmes génériques multilingues : reconnaissance de la parole, génération de texte, synthèse de la parole.

Méthodes et modèles pour les langues peu dotées

Mots-clés : Documentation des langues peu dotées ;  Politiques scientifiques pour les langues en danger, Impact éthique et sociétal ; Traitement automatique des langues peu dotées ; Modèles massivement multilingues et transfert interlingues ; Portabilité d’une langue bien dotée à une langue peu dotée.

Apprentissage automatique pour le TALTraitement Automatique des langues

Mots-clés : Apprentissage automatique et algorithme d’inférence pour la prédiction structurée ; Apprentissage faiblement ou non supervisé ; Apprentissage en continu ; Apprentissage de représentations et méta-apprentissage ; Apprentissage en contexte des interactions affectives.

Linguistique de corpus, variation interlingue et intralingue

Mots-clés : Accents, dialectes et variétés : dialectométrie (géoprosodie) et cartographie linguistique ; Style de parole ; Variation des codes prosodiques entre langues et cultures (codes symboliques et attitudes socialement codées) ; Prosodie expressive et multimodale : illocutions, attitudes, affects sociaux ; Voix, force de voix, qualité vocale, usages sociaux.

Modélisation de comportements affectifs

Mots-clés : Apprentissage et détection automatique comportements affectifs à  partir d’indices paralinguistiques et linguistiques ; Adaptation de grands modèles acoustiques et linguistiques à la  détection des émotions ; Détection de comportements anormaux et de nudge dans l’interaction ; Impact éthique et sociétal de la modélisation des affects et des nudges.

L’équipe se compose de 9 membres permanents (chercheurs CNRS, enseignants-chercheurs à l’Université Paris-Saclay), 6 doctorants, et 9 personnes ingénieures ou chercheurs CDD. Nous entretenons des liens avec les industriels (thèses en contrat CIFRE, projets de recherche) et organisons régulièrement des manifestations scientifiques (conférence TALN, ateliers et workshops scientifiques, etc.).

Membres de l’équipe

Actualités

Publications

  • Communication dans un congrès

    Shu Okabe, François Yvon. LISN @ SIGMORPHON 2023 Shared Task on Interlinear Glossing. The 20th SIGMORPHON workshop on Computational Morphology, Phonology, and Phonetics, Association for computational linguistics, Jul 2023, Toronto, Canada. ⟨10.18653/v1/2023.sigmorphon-1.21⟩. ⟨hal-04186388⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Philippe Boula de Mareüil, Marcel Courthiade, Frédéric Vernier. De la Provence aux Balkans : discours épilinguistiques autour d’un atlas sonore des langues régionales ou minoritaires d’Europe. Annie Rialland; Michela Russo. Les langues régionales de France. Nouvelles approches, nouvelles méthodologie, revitalisation, Éditions de la Société de Linguistique de Paris, pp.247-283, 2023, 9782957089420. ⟨hal-04176590⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Théo GIGANT, Frédéric Dufaux, Camille Guinaudeau, Marc Decombas. TIB: A Dataset for Abstractive Summarization of Long Multimodal Videoconference Records. 20th International Conference on Content-based Multimedia Indexing (CBMI 2023), ACM, Sep 2023, Orléans, France. ⟨hal-04168911⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Gilles Adda, Ioana Vasilescu, François Yvon. Language Report French. Georg Rehm; Andy Way. European Language Equality. A Strategic Agenda for Digital Language Equality, Springer International Publishing, pp.139-142, 2023, Cognitive Technologies, 978-3-031-28818-0. ⟨10.1007/978-3-031-28819-7_16⟩. ⟨hal-04121465⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Xinying Chen, Kim Gerdes, Sylvain Kahane, Marine Courtin. The co-effect of Menzerath-Altmann law and heavy constituent shift in natural languages. Quantitative Approaches to Universality and Individuality in Language, De Gruyter, pp.11-24, 2022, ⟨10.1515/9783110763560-002⟩. ⟨hal-04099935⟩

    STL, TLP

    Année de publication

  • Communication dans un congrès

    Gustave Cortal, Alain Finkel, Patrick Paroubek, Lina Ye. Emotion Recognition based on Psychological Components in Guided Narratives for Emotion Regulation. Association for Computational Linguistics, May 2023, Dubrovnik, Croatia. pp.72-81. ⟨hal-04094814⟩

    ILES, STL

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Anne Lacheret-Dujour, Sylvain Kahane, Rachel Bawden, Serge Fleury, Ilaine Wang. Exploration of the Rhapsodie corpus: Data structure, formats and query tools. Rhapsodie, 89, John Benjamins Publishing Company, pp.271-283, 2019, Studies in Corpus Linguistics, 9789027262929. ⟨10.1075/scl.89.16lac⟩. ⟨hal-04088638⟩

    STL, TLP

    Année de publication

  • Chapitre d'ouvrage

    Sylvain Kahane, Anne Lacheret-Dujour. Syntax and prosody mapping: What and how ?: The case of intonational periods and illocutionary units. Rhapsodie, 89, John Benjamins Publishing Company, pp.339-363, 2019, Studies in Corpus Linguistics, 9789027262929. ⟨10.1075/scl.89.19kah⟩. ⟨hal-04088654⟩

    ILES, STL

    Année de publication

  • Communication dans un congrès

    Anisia Popescu, Elina Rubertus, Aude Noiray. Differences in reading proficiency correlate with variations in vowel duration and dynamics. 8th International Conference onSpeech Motor Control 2022, Aug 2022, Groningen, The Netherlands, Netherlands. ⟨hal-04086093⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Shu Okabe, François Yvon. Joint Word and Morpheme Segmentation with Bayesian Non-Parametric Models. 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023), Association for Computational Linguistics, May 2023, Dubrovnik, Croatia. pp.628-642. ⟨hal-04086368⟩

    STL, TLP

    Année de publication

    Disponible en libre accès