Communication dans un congrès, STL, Informatique, Vision par ordinateur et reconnaissance de formes

Entity-aware cross-modal pretraining for Knowledge-Based Visual Question Answering

Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne. Entity-aware cross-modal pretraining for Knowledge-Based Visual Question Answering. ECIR - European Conference on Information Retrieval, Apr 2025, Lucca, Italy. pp.391-400, ⟨10.1007/978-3-031-88714-7_38⟩. ⟨cea-04910767⟩

Publié le 26 janvier 2025