Budget : 356 638 €
ANR
Thomas Gerald
LIPS
M3
SEME
L'objectif du projet EQUATION est de proposer des approches interprétables et robustes pour générer des réponses à partir de questions sur des documents complexes multimodaux. Nous travaillerons sur des systèmes capables de traiter conjointement du texte et des images, en particulier en travaillant sur des diagrammes, des schémas, des frises chronologiques, des tableaux et du texte. Pour l'interprétabilité ou l'explicabilité des modèles, nous poursuivons un objectif double. Pour les utilisateurs du système, il s'agit d'améliorer la compréhension du raisonnement du modèle, ce qui leur permet d'évaluer la fiabilité d'une réponse et donc de renforcer la confiance dans le système. Par exemple, en décrivant les implications successives ou en indiquant les ressources utilisées pour produire la réponse. Pour les chercheurs, il s'agit de découvrir les processus internes du modèle pour rendre ces systèmes plus robustes ou performants. Les travaux envisagés se découperont en deux étapes. La première consistant en la création d'un corpus multi-modale, en partant de ressources scolaires (livres scolaires) mais aussi de données encyclopédiques provenant de Wikipedia. L'étape suivante sera consacrée à l'explicabilité des modèles dans les systèmes de question-réponses. À cette fin, nous explorerons les problèmes d'hallucination (génération d'un contenu erroné), le problème de la source (quelle information est exploitée par le modèle pour produire une réponse), et la question de la robustesse (changements dans la réponse générée lors d'un changement non sémantique dans l'invite ou la question). Un autre objectif sera de rassembler des chercheurs du LISN autour des problématiques de l'apprentissage multimodal et de l'explicabilité des grands modèles de langue.