Communication dans un congrès, STL, Informatique, Traitement du texte et du document
Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope
Fanny Ducel, Lucie Digoin-Caparros, Ibrahim Al Kotob, Shayan Ahmed Shariff, Binesh Arakkal Remesh, et al.. Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope. TALN 2026 - 33e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2026, Nantes, France. ⟨hal-05618509⟩