大規模言語モデルの多言語機能評価

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは英語のベンチマークテンプレートをフランス語、スペイン語、ヒンディー語、アラビア語、ヨルバ語へ翻訳して、多言語にわたる実用性能とロバスト性を評価する多言語機能ベンチマーク CL-GSM Symbolic および CL-IFEval を導入した。
これらのベンチマークを Belebele、M-GSM、M-MMLU といった静的な多言語ベンチマークと比較すると、言語間で顕著な性能ギャップが見られる（例：英語、フランス語、スペイン語で M-GSM から CL-GSM Symbolic へ移行する際、それぞれ 24%、17%、18% の性能低下）。
Belebele から CL-IFEval へ移行する際には 15〜24% の低下を報告し、M-MMLU から CL-IFEval へは 0.5%〜3% の低下に留まり、ベンチマーク選択が測定される性能に影響を与えることを強調している。
結果は、言語間でモデルのロバスト性が大きく異なることを示しており、アラビア語や英語のような言語が評価の反復を通じてより一貫した性能を示す。

大規模言語モデルにおける多言語能力は、 Belebele、M-MMLU、M-GSM といった静的データベースベンチマークによって評価されることが多い。しかし、これらの評価は、多言語設定全体にわたるモデルの実用的な性能とロバスト性を十分に理解させるものではない。これに対して、英語の既存の機能ベンチマークテンプレートを、NLP に利用可能なリソースの幅をカバーする 5 つの追加言語（フランス語、スペイン語、ヒンディー語、アラビア語、ヨルバ語）へ翻訳して、多言語機能ベンチマークを作成した — Cross-Lingual Grade School Math Symbolic (CL-GSM Symbolic) および Cross-Lingual Instruction-Following Eval (CL-IFEval) 。私たちの結果は、静的な多言語ベンチマークの中には、他のものよりも機能的な性能をより密接に捉えることを示している（つまり、モデル間で、英語、フランス語、スペイン語において M-GSM から CL-GSM Symbolic へ移行する際にそれぞれ 24%、17%、18% の性能低下がある；同様に Belebele から CL-IFEval の間には言語間で 15〜24% の性能低下があり、M-MMLU から CL-IFEval の間には 0.5%〜3% の性能低下しかない）。同様に、言語間でのモデルのロバスト性は大きく異なり、特定の言語（例：アラビア語、英語）が評価の反復を通じて最も一貫して良好なパフォーマンスを示す。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

大規模言語モデルの多言語機能評価

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer