大規模言語モデルの多言語機能評価
arXiv cs.CL / 2026/3/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 著者らは英語のベンチマークテンプレートをフランス語、スペイン語、ヒンディー語、アラビア語、ヨルバ語へ翻訳して、多言語にわたる実用性能とロバスト性を評価する多言語機能ベンチマーク CL-GSM Symbolic および CL-IFEval を導入した。
- これらのベンチマークを Belebele、M-GSM、M-MMLU といった静的な多言語ベンチマークと比較すると、言語間で顕著な性能ギャップが見られる(例:英語、フランス語、スペイン語で M-GSM から CL-GSM Symbolic へ移行する際、それぞれ 24%、17%、18% の性能低下)。
- Belebele から CL-IFEval へ移行する際には 15〜24% の低下を報告し、M-MMLU から CL-IFEval へは 0.5%〜3% の低下に留まり、ベンチマーク選択が測定される性能に影響を与えることを強調している。
- 結果は、言語間でモデルのロバスト性が大きく異なることを示しており、アラビア語や英語のような言語が評価の反復を通じてより一貫した性能を示す。
大規模言語モデルにおける多言語能力は、 Belebele、M-MMLU、M-GSM といった静的データベースベンチマークによって評価されることが多い。しかし、これらの評価は、多言語設定全体にわたるモデルの実用的な性能とロバスト性を十分に理解させるものではない。これに対して、英語の既存の機能ベンチマークテンプレートを、NLP に利用可能なリソースの幅をカバーする 5 つの追加言語(フランス語、スペイン語、ヒンディー語、アラビア語、ヨルバ語)へ翻訳して、多言語機能ベンチマークを作成した — Cross-Lingual Grade School Math Symbolic (CL-GSM Symbolic) および Cross-Lingual Instruction-Following Eval (CL-IFEval) 。私たちの結果は、静的な多言語ベンチマークの中には、他のものよりも機能的な性能をより密接に捉えることを示している(つまり、モデル間で、英語、フランス語、スペイン語において M-GSM から CL-GSM Symbolic へ移行する際にそれぞれ 24%、17%、18% の性能低下がある;同様に Belebele から CL-IFEval の間には言語間で 15〜24% の性能低下があり、M-MMLU から CL-IFEval の間には 0.5%〜3% の性能低下しかない)。同様に、言語間でのモデルのロバスト性は大きく異なり、特定の言語(例:アラビア語、英語)が評価の反復を通じて最も一貫して良好なパフォーマンスを示す。

