KMMMU:韓国語と言語・文脈におけるマッシブなマルチ分野マルチモーダル理解の評価

arXiv cs.CL / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、英語や翻訳に基づく設定ではなく、韓国の文化・制度・分野固有の視覚的慣習を踏まえた理解を評価するためのネイティブ韓国語マルチモーダルベンチマークであるKMMMUを提案する。
  • KMMMUは、9つの学問分野と9つの視覚モダリティカテゴリにまたがる全3,466問の試験形式の韓国語質問を含み、さらに韓国語特化の300項目サブセットと、627問からなるハードサブセットも備える。
  • 実験結果では、最良のオープンソースモデルの精度は全セットで42.05%にとどまる一方、最上位のプロプライエタリモデルはハードサブセットで52.42%を達成する。
  • 性能は分野ごとに不均一であり、韓国語特化の問題では最大13.43%のギャップが見られ、地域化された慣習や基準の理解に関する弱点が継続していることが示唆される。
  • 誤り分析からは、失敗は推論の深さ不足というよりも、慣習からラベルへの対応付け、少数ショットの記号的な帰納の制限、地域化された知識想起、そして領域の標準理解に関連していることが示される。