M3

Modèles, Méthodes et Multilinguisme (M3)

Coordination : Gilles ADDA

L’objet d’étude de l’équipe Modèles, Méthodes et Multilinguisme est centré sur le développement de modèles et méthodes pour aider à la fois à la découverte de propriétés fondamentales de la langue, et de mettre en œuvre des systèmes efficaces pour la traiter.

Nous nous intéressons à la langue dans toutes ses dimensions et toutes ses modalités, mais avec un focus sur la dimension multilingue. Les méthodes et modèles développés dans l’équipe sont de nature diverse : informatiques (modèles neuronaux, méthodes stochastiques ou symboliques), linguistiques (typologie des langues, diversité linguistique et universaux, affects) ou sociétaux (accessibilité,  nudges, préservation des langues, traitement des dialectes et langues peu dotées). Une perspective commune à l’équipe est de mettre en relation des universaux de la langue avec ce qui caractérise la diversité des langues et la variation, et dans une vision unifiée de la modélisation, linguistique et statistique (issue du traitement automatique) des langues.

Universaux en modélisation multilingue de la langue

Mots-clés : Diversité linguistique et universalité en modélisation ; Représentation des langues orales ; Modélisation et représentation phonétiques universelles ;  Modélisation multilingue unifiée et identification automatique de l’idiomaticité ;  Grands modèles de langue multilingues et multimodaux ;  IA générative ;  Modèles universaux et culturels des affects ;  Syntaxe des langues orales ;  Typologie quantitative ;  Corpus comparables ; Accessibilité ;  Evaluation et ressources ;  Systèmes génériques multilingues : reconnaissance de la parole, génération de texte, synthèse de la parole.

Méthodes et modèles pour les langues peu dotées

Mots-clés : Documentation des langues peu dotées ;  Politiques scientifiques pour les langues en danger, Impact éthique et sociétal ; Traitement automatique des langues peu dotées ; Modèles massivement multilingues et transfert interlingues ; Portabilité d’une langue bien dotée à une langue peu dotée.

Apprentissage automatique pour le TALTraitement Automatique des langues

Mots-clés : Apprentissage automatique et algorithme d’inférence pour la prédiction structurée ; Apprentissage faiblement ou non supervisé ; Apprentissage en continu ; Apprentissage de représentations et méta-apprentissage ; Apprentissage en contexte des interactions affectives.

Linguistique de corpus, variation interlingue et intralingue

Mots-clés : Accents, dialectes et variétés : dialectométrie (géoprosodie) et cartographie linguistique ; Style de parole ; Variation des codes prosodiques entre langues et cultures (codes symboliques et attitudes socialement codées) ; Prosodie expressive et multimodale : illocutions, attitudes, affects sociaux ; Voix, force de voix, qualité vocale, usages sociaux.

Modélisation de comportements affectifs

Mots-clés : Apprentissage et détection automatique comportements affectifs à  partir d’indices paralinguistiques et linguistiques ; Adaptation de grands modèles acoustiques et linguistiques à la  détection des émotions ; Détection de comportements anormaux et de nudge dans l’interaction ; Impact éthique et sociétal de la modélisation des affects et des nudges.

Actualités

L’équipe se compose de 9 membres permanents (chercheurs CNRS, enseignants-chercheurs à l’Université Paris-Saclay), 6 doctorants, et 9 personnes ingénieures ou chercheurs CDD. Nous entretenons des liens avec les industriels (thèses en contrat CIFRE, projets de recherche) et organisons régulièrement des manifestations scientifiques (conférence TALN, ateliers et workshops scientifiques, etc.).

Membres de l’équipe

Publications

  • Communication dans un congrès

    Laura Spinu, Ioana Vasilescu, Lori Lamel, Jason Lilley. Voicing neutralization in Romanian fricatives across different speech styles. Interspeech, ISCA, Sep 2022, Incheon, South Korea. pp.1342-1346, ⟨10.21437/interspeech.2022-10716⟩. ⟨hal-04465920⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Plinio Barbosa, Philippe Boula de Mareüil. Imitating Broadcast News Style: Commonalities and Differences Between French and Brazilian Professionals. Book cover Book cover International Conference on Computational Processing of the Portuguese Language (PROPOR 2018), Sep 2018, Canela, Brazil. pp.419-428, ⟨10.1007/978-3-319-99722-3_42⟩. ⟨hal-04466213⟩

    STL, TLP

    Année de publication

  • Chapitre d'ouvrage

    Philippe Boula de Mareüil, Valentina De Iacovo, Antonio Romano, Frédéric Vernier. Un atlante sonoro delle lingue di Francia e d’Italia: focus sulle parlate liguri. Fiorenzo Toso. Il patrimonio linguistico storico della Liguria. Attualità e futuro, Insedicesimo, pp.33-46, 2019. ⟨hal-04441432⟩

    CPUCognition Perception et Usages, STL, TLP

    Année de publication

  • Article dans une revue

    Yaru Wu, Martine Adda-Decker, Lori Lamel. Schwa Deletion in Word-Initial Syllables of Polysyllabic Words. Journal of Monolingual and Bilingual Speech, 2020, 2 (2), ⟨10.1558/jmbs.17311⟩. ⟨hal-04442984⟩

    STL, TLP

    Année de publication

  • Poster de conférence

    Hélène Bonneau-Maynard. Quelles sont les bonnes pratiques pour que mon cours soit accessible au plus grand nombre ?. journée Initiatives Pédagogiques JIP 2020-2021, Feb 2021, Orsay, France. 2021. ⟨hal-04417697⟩

    STL, TLP

    Année de publication

  • Proceedings/Recueil des communications

    Nicoletta Calzolari, Frédéric Bechet, Philippe Blache, Khalid Choukri, Christopher Cieri, et al.. Proceedings Language Resources and Evaluation Conference (LREC) 2020. Language Resources and Evaluation Conference (LREC) 2020, 2020, 9781713812500. ⟨hal-04415353⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • N°spécial de revue/special issue

    Alexandre Allauzen, Hinrich Schütze. Apprentissage profond pour le traitement automatique des langues. Revue TALTraitement Automatique des langues : traitement automatique des langues, 59 (2), 2018. ⟨hal-04421499⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Chapitre d'ouvrage

    Laurence Devillers, Françoise Fogelman-Soulié, Ricardo Baeza-Yates. AI & Human Values. Reflections on Artificial Intelligence for Humanity, 12600, Springer International Publishing, pp.76-89, 2021, Lecture Notes in Computer Science, 978-3-030-69127-1. ⟨10.1007/978-3-030-69128-8_6⟩. ⟨hal-04423272⟩

    STL, TLP

    Année de publication

  • Proceedings/Recueil des communications

    Joseph J Mariani, Gilles Adda, Khalid Choukri, Irmgarda Kasinskaite Buddeberg, Hélène Mazo, et al.. Language Technologies for All (LT4All). Enabling Language Diversity & Multilingualism Worldwide. Language Technologies for All (LT4All), European Language Resources Association, 2020, 979-10-95546-33-7. ⟨hal-04413363⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Poster de conférence

    Hélène Bonneau-Maynard, Thomas Fauvel. Pour un campus numérique accessible. HANDIVERSITÉ 2021, Apr 2021, Orsay, France. ⟨hal-04417061⟩

    STL, TLP

    Année de publication