Le traitement automatique des conversations humaines pose d'importants défis en raison de leur nature multimodale et dynamique. Le projet MINERAL vise à améliorer la compréhension des situations conversationnelles en abordant des problématiques clés : exploiter les indices non verbaux, intégrer l'ancrage sémantique et comprendre la structure discursive dynamique. Situé à l'intersection des modalités textuelles, audio et visuelles, le projet MINERAL s'appuie sur des travaux sur la compréhension de conversations tout en se concentrant sur le domaine largement inexploré de l'analyse conversationnelle multimodale. En exploitant des ensembles de données incluant des données télévisuelles, des réunions multipartites, des enregistrements anonymisés de centres d'appels d'Orange, ainsi qu'un jeu de données axé sur le développement socio-cognitif des enfants, le premier objectif du projet MINERAL consiste à développer des modèles capables d'effectuer des analyses contextuelles multimodales sémantiques, discursives et pragmatiques des conversations humaines à plusieurs participants. Pour aborder la conversation dans sa globalité, nous commencerons par caractériser les actes de communication, c'est-à-dire les plus petites unités de communication au sein de la conversation, qui peuvent être verbales ou non verbales, puis étudier la structure communicative, à savoir les relations entre les actes de communication. Pour évaluer l'efficacité de ces modèles, le deuxième objectif du projet consistera à générer automatiquement un script (sur le modèle de script de film) décrivant le contenu d'une conversation en tenant compte des dimensions sémantiques, discursives et pragmatiques. Nous prévoyons d'évaluer la capacité de généralisation de nos modèles dans différents cas d'utilisation, qu'ils soient industriels (résumé de réunion) ou académiques, grâce à la recherche sur le développement socio-cognitif des enfants.