Exporter la page au format PDF (1.5Mo environ)

Communication dans un congrès, STL, Informatique, Traitement du texte et du document

Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope

Fanny Ducel, Lucie Digoin-Caparros, Ibrahim Al Kotob, Shayan Ahmed Shariff, Binesh Arakkal Remesh, et al.. Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope. TALN 2026 - 33e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2026, Nantes, France. ⟨hal-05618509⟩

Publié le 13 mai 2026