SemEval-2026 タスク7:多様な言語と文化にまたがる日常知識

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • SemEval-2026 タスク7では、LLMやNLPシステムが日常知識を多言語・多文化の文脈でどれだけ適応できるかを評価する共有企画が提案されています。
  • ベンチマークは、手作業で構築されたBLEnDベンチマークの拡張版であり、30以上の言語—文化ペアをカバーし、複数大陸にまたがる低リソース言語を中心にしています。
  • 参加条件として、データを学習・微調整・少数ショット学習などのモデル改変に使うことは禁止され、評価用途に限定されています。
  • タスクはショートアンサー問題(SAQ)とマルチプルチョイス問題(MCQ)の2トラックで構成され、62チームの最終提出と19本のシステム記述論文が集まりました。
  • 結果と分析が報告され、上位システムや採用されがちな手法、評価の難しさやミスアラインメント、代表されにくい言語・文化におけるモデル挙動に関する課題が論じられています。