TLP
Les activités de recherche dans ce thème se focalisent sur le développement, la spécialisation et l’évaluation de méthodologies d’Apprentissage Artificiel (AA), pour les adapter aux spécificités du traitement automatique des langues et de la parole. Ces méthodologies sont évaluées sur une application finalisée, la Traduction Automatique (TA), qui comprend de nombreuses tâches intermédiaires: l’étiquetage en parties du discours, l’analyse syntaxique de surface ou profonde, la reconnaissance d’entités nommées, la désambiguïsation sémantique, qui toutes peuvent être abordées avec les outils de l’apprentissage statistique.
En plus de leur complexité intrinsèque, ces problèmes impliquent de traiter des données (i) très volumineuses, (ii) hétérogènes, (iii) pouvant être complètement ou partiellement annotées, voire non-annotées; de plus, les données linguistiques sont souvent (iv) structurées et peuvent être décrites par (v) des myriades de caractéristiques linguistiques, présentant (vi) des
dépendances complexes.
Les questions (i)-(vi) correspondent aux principaux défis scientifiques auxquels nous nous consacrons.
De plus, et cela nous distingue de nombreuses équipes qui étudient ces questions, nous avons un second objectif, qui est de faire progresser l’état de l’art en traduction automatique, en participant aux évaluations internationales du domaine; ceci nous impose en particulier de maintenir nos propres logiciels de traduction automatique.
Les systèmes de traduction automatique statistiques reposent sur l’analyse de grands corpus bilingues, qui servent à entraîner des modèles stochastiques probabilisant l’association entre une langue source (SL) et une langue cible (TL). Dans leur forme la plus simple, ces modèles expriment des correspondances probabilistes entre des séquences de mots source et cible; c’est en particulier le cas des fameux modèles IBM formulées dans les années 90. Récemment, ces modèles ont été étendus à des représentations plus complexes (des segments, des syntagmes ou des structures de dépendance et à des associations probabilistes entre ces représentations. Ils sont typiquement entrainés à partir d’exemples de traductions préalablement alignées au niveau sous-phrastique, le plus souvent au niveau des mots.
Dans ce contexte, le LISN développe des activités dans plusieurs directions, depuis la conception de modèles d’alignement jusqu’au développement de nouveaux modèles de traduction; depuis l’exploration de nouvelles méthodes d’apprentissage jusqu’au développement de stratégies de décodage. Toutes ces innovations doivent être évaluées en profondeur, et une partie significative de nos effort est consacrée à la difficile question de l’évaluation de la traduction (Marie & Apidianaki, 2015a, 2015b). Le LIMSILaboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur, créé en 1972 et dont les équipes ont rejoint celles du LRI en 2021 pour fonder le LISN. est également impliqué dans plusieurs projets nationaux et internationaux.
Pour ce qui concerne les modèles d’alignement, les travaux les plus récent portent d’une part sur la conception de modèles d’alignement discriminants (Allauzen & Wisniewski, 2009; Tomeh et al, 2010, 2011a, 2011b, 2012), qui permettent d’améliorer la qualité des alignements, et partant, des modèles de traduction; d’autre part sur la conception d’algorithmes d’alignements rapides reposant sur des mesures d’association entre mots et segments dans des corpus bilingues.
Le système de traduction du LISN, Ncode, appartient au groupe des systèmes à base de n-grammes. Dans cette approche, la traduction est effectuée en deux étapes: la phrase source est tout d’abord réordonnée pour construire un treillis des réordonnancements possibles; ce treillis est ensuite traduit de manière monotone en utilisant un modèle de langue bilingue. Comme dans l’approche standard, les hypothèses de traduction sont évaluées en combinant log-linéairement les scores de plusieurs modèles, les poids de la combinaison étant eux-mêmes optimisés sur des données de développement. Diverses évaluations récentes de cette approche sont décrites dans (Crego & Yvon, 2009, 2010a, 2010b). Ce système est maintenant disponible sous licence libre (Crego & Yvon, 2011); une démo est également disponible (voir la page des démos).
Une approche alternative pour entrainer ces modèles, modélisant la traduction par des champs de Markov conditionnels a été proposée récemment (Lavergne et al, 2011; Lavergne et al, 2013). Nous explorons enfin des manières plus agiles et adaptatives d’estimer des modèles de traduction, en étudiant des stratégies d’estimation des paramètres à la volée (Li et al, 2012; 2013; 2014).
Les activités du LISN ne se limitent pas à l’amélioration des modèles de traduction, et de nombreux autres aspects de la traduction statistique sont également étudiées, comme le “tuning” (Sokolov & Yvon, 2011), la traduction multi-source (Crego et al 2010a, 2010b), l’évaluation diagnostique, en particulier par le truchement de scores oracles (Max et al, 2010; (Wisniewski et al, 2010, 2013; Sokolov et al, 2012), l’estimation de confiance (Zhang et al, 2012; Singh et al, 2013), la désambiguïsation sémantique pour la TA (Sokolov et al, 2012; Apidianaki et al, 2012; Apidianaki et Gong, 2015), l’extraction of phrases parallèles dans des corpus comparables (Braham-Ghabiche et al, 2011), l’alignement de phrases (Yu et al, 2012a, 2012b), etc.
Les activités du LISN en matière d’apprentissage automatique visent à établir des passerelles entre les domaines de l’AA et de la TA: la traduction est une tâche particulièrement ardue qui offre un terrain d’expérimentation en vraie grandeur pour des innovations en AA; à l’inverse, il apparaît que le développement de systèmes de TA pose des problèmes dont les solutions peuvent être réutilisées dans d’autres contextes, ou donner lieu à des solutions génériques.
Une des réalisations marquantes à cet égard a été le développement de Wapiti (Lavergne et al, 2010), un logiciel libre implémentant les champs Markoviens aléatoires et particulièrement adapté au traitement de “grandes” tâches (impliquant un très grand nombre d’exemples ou de descripteurs). Grâce à une implémentation efficace des procédures fondamentales nécessaires à cette implémantation (calcul du gradient et optimisation) et à l’utilisation d’une pénalisation l1 qui favorise les modèles “creux”, ainsi qu’à l’utilisation d’un formalisme très expressif pour décrire les caractéristiques linguistiques, ce logiciel est capable de traiter des jeux de descripteurs très grands (de l’ordre du milliard), un grand nombre d’étiquettes de sorties (plusieurs centaines) et des millions d’instances d’apprentissage.
Ces fonctionnalités avancées ont permis à Wapiti d’atteindre des performandes au meilleur état-de-l’art pour de nombreuses tâches du TALTraitement Automatique des langues (conversion graphème-phonème, étiquettage en parties du discours, reconnaissances d’entités nommées, etc) et pour de nombreuses langues. Une évolution de ce logiciel capable de gérer des variables latentes est en cours de finalisation.
Une autre réalisation marquante est le développement d’architectures pour entraîner et utiliser de très grands réseaux de neurones, capables de prédire des millions d’étiquettes sur leur couche de sortie. Ces réseaux sont particulièrement utiles dans le contexte de la modélisation statistique des langues (Language Modeling), un thème auquel le LISN a beacoup contribué depuis (Gauvain & Schwenck, 2002); ces modèles nous ont permis d’obtenir des amélioarations de performances pour de nombreuses tâches et conditions. Le travail de (Le et al, 2010, 2011, 2013) a conduit au développement des premiers réseaux capables de traiter des grands vocabulaires (des centaines de milliers de mots) tout en intégrant de longs contextes (10-grams).
Ces modèles ont été utilisés pour ré-évaluer des listes de n-meilleurs pour la reconnaissance vocale et la traduction automatique. Des généralisations plus récentes à des modèles de traduction neuronaux est présentée dans (Lavergne et al, 2011; Le et al, 2012; Do et al, 2014; 2015).