Abstract
評価言語は、エージェント的コードベンチマークにおいて固定された英語のデフォルトとして扱われるのが通常ですが、審判(ジャッジ)の言語を変更すると、バックボーンの順位が反転し得ることを示します。私たちは「Agent-as-a-Judge(審判としてのエージェント)」プロンプトスタックを、5つの類型論的に多様な言語(英語、アラビア語、トルコ語、中国語、ヒンディー語)にローカライズし、3つの開発者エージェントフレームワークおよび6つの審判バックボーンにまたがる55のDevAI開発タスクを評価します。合計で4950回の審判実行(judge runs)を行いました。中心となる発見は、バックボーンと言語が相互作用するという点です。GPT-4oは英語で最も高い満足度(44.72\%)を達成する一方、Geminiはアラビア語で優位(51.72\%、GPT-4oとの比較で p<0.001)であり、さらにヒンディー語でも主導します(53.22\%)。すべての言語にわたって単一のバックボーンが支配的になることはなく、個々の要件判断に関するバックボーン間の一致度は控えめです(Fleiss'
appa \leq 0.231)。また、制御されたアブレーションにより、決定的なのはベンチマーク内容だけではなく、審判側の指示をローカライズすることだとさらに示されます。ヒンディー語の満足度は、部分的なローカライズのもとで42.8\%から23.2\%へ低下します。これらの結果は、言語をエージェント的ベンチマークにおける明示的な評価変数として扱うべきであることを示しています。再現性のために、要件レベルの完全な判断と実行時の統計情報を公開します。