GESTTOSAY – Analyse multi-modale Vidéo-Texte pour la compréhension des gestes

Date de début : 01-2026

Date de fin : 12-2029

Budget : 834 717 €

ANR

GIPSA-lab

Michèle Gouiffès

AMI

LIPS

La majorité des personnes sourdes rencontre des difficultés à lire et à écrire, ce qui limite leur accès à de nombreuses technologies numériques telles que la recherche de contenu, la traduction automatique, les assistants vocaux et les chatbots. Pour répondre à cette problématique, le projet GestToSay développera des méthodes d'analyse multimodale vidéo-texte spécifiquement adaptées aux langues visuo-gestuelles, comme la langue des signes française. Plus précisément, le projet visera la reconnaissance et la traduction de ces gestes (captés par des webcams classiques) vers du texte, en se concentrant à la fois sur l'apprentissage des représentations et sur les modèles neuronaux. Les méthodes neuronales employées, généralement basées sur des architectures de type transformers, nécessitent de grandes quantités de données, qui sont actuellement insuffisantes en France. Une partie du projet sera donc dédiée à la collecte de données gestuelles selon trois approches : l'annotation automatique de données audiovisuelles traduites, la collecte de gestes via une plateforme interactive, et la génération de vidéos de gestes. Une plateforme interactive sera développée dans le cadre du projet pour faciliter cette collecte de données. Enfin, l'outil de reconnaissance et de traduction sera évalué à travers des expériences utilisateurs utilisant des méthodes quantitatives et qualitatives, afin de recueillir des retours permettant d’orienter les choix de conception.