Résumé de présentations multimodales avec des modèles de langue

Soutenance de thèse préparée sous la direction de Frédéric Dufaux, directeur de recherche, CNRS, L2S, et de Camille Guinaudeau, enseignante-chercheuse, Université Paris-Saclay, LISN

Orateur : Théo Gigant

Ajouter à mon calendrier

Jury

Benoit FAVRE, Rapporteur & Examinateur, Professeur, HDR, Aix-Marseille Université, LIS
Philippe MULLER, Rapporteur & Examinateur, Maître de Conférences, HDR, Université Paul Sabatier, IRIT
Benoît MACQ, Examinateur, Professeur, Université catholique de Louvain, ICTEAM
Ewa KIJAK, Examinatrice, Maîtresse de Conférences, HDR , Université de Rennes, IRISA

Résumé

Le résumé abstractif de présentations longues et multimodales pose des défis uniques en raison de la complexité émergeant de l’intégration de modalités variées (e.g. audio, vidéo, transcription, diapositives) et la création de résumés concis et informatifs sur de longs contextes.
Les avancées récentes dans les modèles de langue suggèrent qu’ils sont désormais capables de relever ces défis, mais une évaluation complète pour cette tâche reste encore insuffisamment explorée.
Dans cette thèse, nous étudions les capacités des modèles de langue multimodaux à produire des résumés abstractifs à partir des différentes modalités de présentations multimodales, brutes et extraites, en tirant parti de la complémentarité et de l’alignement temporel entre ces modalités.
Tout d’abord, nous introduisons TIB-dataset un jeu de données pour le résumé abstractif de présentations multimodales, ainsi que son sous-ensemble TIB-benchmark, pensé pour l’évaluation. Ils sont constitués de plus de 9100 présentations multimodales issues de conférences académiques, avec des transcriptions et des images clés extraites, accompagnées de leurs résumés de référence.
Ensuite, nous proposons le score Importance-based Relevance (IbR), une métrique d’évaluation sans référence conçue pour évaluer la pertinence des résumés sans dépendre de résumés de référence, dans le cadre d’un ensemble de métriques qui a pour but de permettre une évaluation fine du résumé abstractif multimodal.
Troisièmement, nous menons une analyse approfondie des modèles de langue multimodaux, comparant leurs performances sous différents formats d’entrée unimodaux et multimodaux utilisant l’audio, la vidéo, ou des modalités dérivées comme les transcriptions ou les diapositives.
Nos expériences conduisent à une comparaison du rapport coût-efficacité de ces formats, contrastant les scores d’évaluation avec les longueurs des séquences de tokens.
Ces contributions fournissent une base solide pour les recherches futures sur les systèmes de résumé multimodal. TIB-dataset, TIB-benchmark, la métrique IbR ainsi que notre ensemble d’outils pour la représentation multimodale sont publiés librement afin de favoriser la reproductibilité et l’innovation dans ce domaine émergent.

Lieu : Bâtiment Eiffel de Centrale Supelec
Salle : Amphithéâtre VI

Salle virtuelle : lien