TLP

Ressources langagières

Membres : Gilles Adda, Martine Adda-Decker (LPP), Eric Bilinski (ASARD), Philippe Boula de Mareüil, Jean-Luc Gauvain, Lori lamel, Joseph Mariani, Sophie Rosset (ILES), Ioana Vasilescu

L’évaluation comparative est un élément moteur du traitement de la parole depuis plus de 30 ans. Les corpus sont au coeur de ces deux grands paradigmes. Alors que dans le passé, l’utilisation des grands corpus s’est limitée à quelques domaines et langues, la dernière décennie a connu une vraie expansion vers le multilinguisme et la multimodalité. Le développement de corpus et l’organisation d’évaluations sont cruciaux pour la communauté linguistique et posent à leur tour des problèmes scientifiques qui doivent être résolus, tels que les corpus à collecter et comment ils devraient être annotés, ainsi que des questions scientifiques sur la façon de récompenser leurs promoteurs et la façon d’assurer l’éthique dans le processus de collecte. Ce thème traite de l’aspect théorique et des problèmes pratiques concernant la collecte, l’annotation et la diffusion de grands corpus multilingues.

À la suite du projet Quaero, où 35 transcripteurs ont trancrit plus de 1.700 heures de parole (émissions radio-télévisées, séminaires,…) en 25 langues, nous nous orientons maintenant vers des corpus spécifiques, pour des problèmes spéci­fiques, et avec une finalité double, à la fois pour des fins linguistiques et pour développer des systèmes. Nous pouvons citer par exemple le développement de corpus français-algérien pour étudier le code-switching (projet ANR/Salsa) ou le développement d’un corpus en roumain pour étudier la tâche Diapix (collaboration LIMSILaboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur, créé en 1972 et dont les équipes ont rejoint celles du LRI en 2021 pour fonder le LISN.- Labex EFL). Un exemple marquant de la volonté de faire collaborer les technologies et les études linguistiques se trouve dans le développement de corpus en trois langues bantoues (mbochi, basaa, myene) contenant plus de 50 heures dans chacune des langues, chaque donnée originale étant répétée minutieusement et traduite oralement, dans le but de développer les outils d’aide à la documentation des langues non-écrites (projet ANR-DFG BULB).

La classification des erreurs, le diagnostic et la mesure de l’impact au moyen de tests perceptifs constituent des étapes importantes pour identifier les faiblesses des modèles des systèmes de transcription de pointe et préparer les géné­rations futures de systèmes de traitement du langage parlé (projet ANR/VERA). L’annotation des données multimédia volumineuses nécessite la mise en place d’infrastructures innovantes ; nous avons développé pour cela dans le cadre du projet CHISt-ERA/Camomile, une plateforme d’annotation collaborative, pour les données 3M (multilingues, multimédias, multimodales) qui a été utilisée dans le cadre d’évaluations internationales.

En parallèle de nos activités de production de corpus, des recherches plus générales sur les ressources linguistiques ont été menées en relation avec les réseaux européens FLaReNet et META-NET. Ils traitent de la compilation des ressources linguistiques mentionnées dans les communications présentées lors de conférences (LRE Map), de la comparaison du statut entre les langues (Matrices et tableaux linguistiques) et de la détection des lacunes pour certaines langues (Langues moins ressources), de l’identification unique d’une ressource linguistique et du calcul de son facteur d’impact.

Elle concerne également la dimension éthique de la production et de la distribution des ressources langagières dans le contexte d’un intérêt croissant au niveau international pour le partage des données et le Crowdsourcing, avec le déve­loppement en collaboration avec Aproged, Cap Digital, AFCP et ATALA une charte de bonne pratique « Éthique et Big Data ». Cette activité se poursuit par l’organisation de journées d’études, de blog, et d’un numéro spécial TALTraitement Automatique des langues 57(2) : TALTraitement Automatique des langues et éthique (Karën Fort, Gilles Adda et Kevin Bretonnel Cohen)