往復翻訳が明らかにするフロンティア多言語ベンチマークの見落とし

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在のフロンティア多言語ベンチマークは、真の多言語能力ではなく、数学的推論や事実の記憶（想起）を測定してしまいがちだと主張している。
「thinking」モデルのバリアントは、これらの構造化された多言語評価において「instruct」バリアントよりも大幅に高いスコアを出せる一方で、LMArenaのような実世界の多言語タスクではより悪い性能を示すと報告している。
多言語能力をより適切に評価するために、著者らは往復翻訳（元の言語 → ターゲット言語 → 元の言語へ戻す）を提案し、元の文章と最終的な文章の意味的なギャップを誤りのシグナルとして用いる。
この手法は、より強力な多言語ジャッジに依存したり、人手による参照翻訳を不要としたりしつつ、LMArenaにおけるユーザー評価との相関がほぼ完全であることを示している（Spearman ρ = 0.94）。
著者らは、広く話されている多くの言語にまたがる多言語生成を強く試験するための新しいベンチマーク「Lost in Translation（LiT）」を公開する。

概要: 多言語ベンチマークは、最先端モデルの開発を導きます。しかし、最先端モデルが報告している多言語評価は、よく知られた推論・知識ベンチマークと構造が似ている一方で、多くの言語にまたがっています。私たちはこのようなベンチマーク、ひいては多言語評価が、多言語能力ではなく、数学的推論と事実の想起を測定していることを示します。たとえば、思考（thinking）系のバリアントは、これらのベンチマークでは指示（instruct）系のバリアントを大きく上回りますが、それでも現実の多言語タスク、たとえばLMArenaではしばしば性能が低くなります。私たちは簡単な代替案として、「往復翻訳」によって多言語能力を評価することを提案します。あるソース言語で書かれたテキストをターゲット言語へ翻訳し、さらに元の言語へ戻します。元文と結果の間にある意味的なギャップは、多言語生成能力の失敗を露呈します。往復翻訳は、私たちのベンチマークに基づくLMArenaでのユーザー評価とほぼ完全に相関します（\r{ho} = 0.94）。また、人手による参照翻訳を必要とせず、テスト対象のモデルよりも高能力な多言語ジャッジを必要としません。最後に、広く話されている世界中の言語にまたがる、挑戦的な往復翻訳ベンチマーク「Lost in Translation（LiT）」を導入し、多言語の最先端モデルを現実的に評価します。