Agent-as-a-Judgeにおけるマルチリンガル・プロンプトのローカライズ:要求レベル評価における言語と言語モデル(バックボーン)への感度

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Agent-as-a-Judgeによる評価において、ジャッジ言語は中立的な設定ではないことを示す。言語を切り替えると、バックボーンの順位が反転したり、有意に変化したりし得る。
  • Agent-as-a-Judge用のプロンプト・スタックを、類型的に多様な5言語(英語、アラビア語、トルコ語、中国語、ヒンディー語)にローカライズし、55のDevAIタスク、3つのエージェント・フレームワーク、6つのジャッジ・バックボーンに対して合計4,950件のジャッジ評価を実行する。
  • 結果は、言語とジャッジ・バックボーンの間に強い相互作用があることを示す。英語ではGPT-4oが最良だが、アラビア語とヒンディー語ではGeminiが主導し、全言語にわたって単一のバックボーンが支配的になることはない。
  • 要求レベルの判断における異なるジャッジ・バックボーン間の合意度は控えめである(Fleiss’ κ ≤ 0.231)。これは、ローカライズされた評価プロンプトをモデルが解釈する仕方に大きなばらつきがあることを示唆する。
  • アブレーション研究により、ベンチマーク内容だけでなく、ジャッジ側の指示をローカライズすることが決定的になり得ることも判明する。例えば、ローカライズが部分的にしか行われない場合、ヒンディー語での満足度が急激に低下する。加えて、本論文は再現性のために判断結果と実行時の統計情報を公開する。

Abstract

評価言語は、エージェント的コードベンチマークにおいて固定された英語のデフォルトとして扱われるのが通常ですが、審判(ジャッジ)の言語を変更すると、バックボーンの順位が反転し得ることを示します。私たちは「Agent-as-a-Judge(審判としてのエージェント)」プロンプトスタックを、5つの類型論的に多様な言語(英語、アラビア語、トルコ語、中国語、ヒンディー語)にローカライズし、3つの開発者エージェントフレームワークおよび6つの審判バックボーンにまたがる55のDevAI開発タスクを評価します。合計で4950回の審判実行(judge runs)を行いました。中心となる発見は、バックボーンと言語が相互作用するという点です。GPT-4oは英語で最も高い満足度(44.72\%)を達成する一方、Geminiはアラビア語で優位(51.72\%、GPT-4oとの比較で p<0.001)であり、さらにヒンディー語でも主導します(53.22\%)。すべての言語にわたって単一のバックボーンが支配的になることはなく、個々の要件判断に関するバックボーン間の一致度は控えめです(Fleiss' appa \leq 0.231)。また、制御されたアブレーションにより、決定的なのはベンチマーク内容だけではなく、審判側の指示をローカライズすることだとさらに示されます。ヒンディー語の満足度は、部分的なローカライズのもとで42.8\%から23.2\%へ低下します。これらの結果は、言語をエージェント的ベンチマークにおける明示的な評価変数として扱うべきであることを示しています。再現性のために、要件レベルの完全な判断と実行時の統計情報を公開します。