Du

Horaire -

Lieu LISN Site Belvédère

STL, Thèses et HDR

Répondre aux questions visuelles à propos d’entités nommées

Orateur : Paul Lerner

Thèse dirigée par Olivier Ferret, chercheur au CEA List, et co-encadrée par Camille Guinaudeau, maîtresse de conférences à l’Université Paris-Saclay.

Jury

  • Josiane Mothe, professeure à l’Université Toulouse Jean-Jaurès
  • Philippe Mulhem, chargé de recherches au CNRS (LIG, Université Grenoble Alpes)
  • Michel Crucianu, professeur au CEDRIC-CNAM
  • Ewa Kijak, maîtresse de conférences à l’Université de Rennes
  • Pierre Zweigenbaum, directeur de recherche au CNRS (LISN, Université Paris-Saclay)

Mots clés : questions visuelles, recherche d’information multimodale, apprentissage de représentation, entités nommées, pré-entraînement, système de question-réponse

Résumé

Cette thèse se positionne à l’intersection de plusieurs domaines de recherche, le traitement automatique des langues, la Recherche d’Information (RI) et la vision par ordinateur, qui se sont unifiés autour des méthodes d’apprentissage de représentation et de pré-entraînement. Dans ce contexte, nous avons défini et étudié une nouvelle tâche multimodale : répondre aux questions visuelles à propos d’entités nommées (KVQAE) Dans ce cadre, nous nous sommes particulièrement intéressé aux interactions cross-modales et aux différentes façons de représenter les entités nommées. Nous avons également été attentifs aux données utilisées pour entraîner mais surtout évaluer les systèmes de question-réponse à travers différentes métriques. Plus précisément, nous avons proposé à cet effet un jeu de données, le premier de KVQAE comprenant divers types d’entités. Nous avons également défini un cadre expérimental pour traiter la KVQAE en deux étapes grâce à une base de connaissances non-structurée et avons identifié la RI comme principal verrou de la KVQAE, en particulier pour les questions à propos d’entités non-personnes. Afin d’améliorer l’étape de RI, nous avons étudié différentes méthodes de fusion multimodale, lesquelles sont pré-entraînées à travers une tâche originale : l’Inverse Cloze Task multimodale. Nous avons trouvé que ces modèles exploitaient une interaction cross-modale que nous n’avions pas considéré à l’origine, et qui permettrait de traiter l’hétérogénéité des représentations visuelles des entités nommées. Ces résultats ont été renforcés par une étude du modèle CLIP qui permet de modéliser cette interaction cross-modale directement. Ces expériences ont été menées tout en restant attentif aux biais présents dans le jeu de données ou les métriques d’évaluation, notamment les biais textuels qui affectent toute tâche multimodale.

Publications

  • Communication dans un congrès

    Paul Lerner, Olivier Ferret, Camille Guinaudeau, Hervé Le Borgne, Romaric Besançon, et al.. ViQuAE, a Dataset for Knowledge-based Visual Question Answering about Named Entities. SIGIR ’22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, Jul 2022, Madrid, Spain. ⟨10.1145/3477495.3531753⟩. ⟨hal-03650618⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Paul Lerner, Olivier Ferret, Camille Guinaudeau. Multimodal Inverse Cloze Task for Knowledge-based Visual Question Answering. 45th European Conference on Information Retrieval (ECIR 2023), Apr 2023, Dublin, Ireland. ⟨10.1007/978-3-031-28244-7_36⟩. ⟨hal-03933089v2⟩

    STL, TLP

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Paul Lerner, Olivier Ferret, Camille Guinaudeau, Hervé Le Borgne, Romaric Besançon, et al.. Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances. Traitement Automatique des Langues Naturelles (TALN 2022), Jun 2022, Avignon, France. pp.434-444. ⟨hal-03701521⟩

    Année de publication

    Disponible en libre accès

  • Communication dans un congrès

    Paul Lerner, Juliette Bergoënd, Camille Guinaudeau, Hervé Bredin, Benjamin Maurice, et al.. Bazinga! A Dataset for Multi-Party Dialogues Structuring. LREC 2022 – 13th Language Resources and Evaluation Conference, European Language Resources Association (ELRA), Jun 2022, Marseille, France. pp.3434-3441. ⟨hal-03737453⟩

    ILES, STL, TLP

    Année de publication

    Disponible en libre accès

Lieu de l'événement