Budget : 499573 €
ANR
Guillaume WISNIEWSKI
Analyser l'impossible, Traduire l'improbable. TAL en fonction du contexte. L'une des évolutions sociétales les plus marquantes des médias sociaux repose sur la façon dont ils influent sur notre perception des événements. Les contenus générés par l'utilisateur (UGC), qui incluent réseaux sociaux, blogs et forums de discussion, diffèrent du genre journalistique (sur lequel sont développés les outils de TAL). ParSiTi vise à tirer profit des récents progrès en TAL et en apprentissage artificiel pour répondre aux défis posés par les les UGC multilingues, et à en améliorer l'accès. Nous prévoyons de mettre en oeuvre une chaîne complète de TAL capable de traiter du texte UGC en contexte. Pour mettre en valeur les avantages de notre approche, nous développerons un système de traduction automatique de haut niveau capable de traduire des UGC entre français, anglais et arabe. Ce système sera utile aussi bien aux chercheurs en linguistique et en sciences sociales qu'aux utilisateurs industriels. De plus, ce système et les données associées seront disponibles librement, pour faciliter la mise en oeuvre d'autres prototypes, par exemple pour l'extraction d'information et la fouille d'opinion. Le développement d'une telle chaîne exige de dépasser les techniques existantes, parfois au prix de la remise en cause d'hypothèses jusque là communément admises.