GaoYaoベンチマーク:大規模言語モデルの多言語・多文化能力を評価するための包括的フレームワーク

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • GaoYaoベンチマークは、既存のLLM評価における弱点(文化的側面の分断、低品質な機械翻訳に依存した言語カバレッジの不足、順位以上の診断の浅さ)を解決することを目的に提案されます。
  • GaoYaoは182.3k件のサンプルを26言語・51の国/地域でカバーし、評価タスクを3つの文化レイヤー(一般的多言語・異文化間・単一文化)と9つの認知サブレイヤーに整理します。
  • 専門家による厳密なローカライズを用いて19言語で「ネイティブ品質」の主観タスクを拡充し、さらに34の文化に対する異文化テストセットを合成することで、従来比で最大111%のカバレッジ向上を達成します。
  • 20以上の主力モデルおよびコンパクトモデルを対象に詳細な診断分析を行い、地域ごとの大きな性能差やタスク種別ごとの能力ギャップの違いを明らかにします。
  • GaoYaoはGitHubで公開されており、より信頼性の高い文化的に根ざした多言語LLM研究・開発を後押しします。

要旨: 大規模言語モデル(LLM)の多言語・多文化能力を評価することは、それらのグローバルでの有用性にとって不可欠です。しかし、現在のベンチマークには重大な制約が3つあります。 (1) 評価の次元が分断されており、しばしば深い文化的ニュアンスが見落とされること。 (2) 低品質な機械翻訳に依存する主観的タスクにおいて、言語カバレッジが不十分であること。 (3) 単なる順位付け以上の診断的な深さを欠いた浅い分析であること。これらに対処するために、サンプル182.3k、26言語、51の国・地域から成る包括的ベンチマーク「GaoYao」を導入します。まずGaoYaoは、評価タスクを3つの文化層(General Multilingual、Cross-cultural、Monocultural)と9つの認知サブ層に分類する統一的な枠組みを提案します。次に、専門家を活用して主観的ベンチマークを19言語へ厳密にローカライズし、さらに34の文化に対するクロスカルチュラルなテストセットを合成することで、ネイティブ品質の拡張を実現し、従来のカバレッジを最大111%上回ります。第三に、20以上の旗艦モデルおよびコンパクトLLMに対して、深い診断分析を行います。結果として、地域による性能の大きな不均衡と、タスク間での明確なギャップが明らかになり、今後の研究のための信頼できる地図が得られます。本ベンチマークを公開します(https://github.com/lunyiliu/GaoYao)。