Agent-as-a-Judgeにおけるマルチリンガル・プロンプトのローカライズ：要求レベル評価における言語と言語モデル（バックボーン）への感度

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Agent-as-a-Judgeによる評価において、ジャッジ言語は中立的な設定ではないことを示す。言語を切り替えると、バックボーンの順位が反転したり、有意に変化したりし得る。
Agent-as-a-Judge用のプロンプト・スタックを、類型的に多様な5言語（英語、アラビア語、トルコ語、中国語、ヒンディー語）にローカライズし、55のDevAIタスク、3つのエージェント・フレームワーク、6つのジャッジ・バックボーンに対して合計4,950件のジャッジ評価を実行する。
結果は、言語とジャッジ・バックボーンの間に強い相互作用があることを示す。英語ではGPT-4oが最良だが、アラビア語とヒンディー語ではGeminiが主導し、全言語にわたって単一のバックボーンが支配的になることはない。
要求レベルの判断における異なるジャッジ・バックボーン間の合意度は控えめである（Fleiss’ κ ≤ 0.231）。これは、ローカライズされた評価プロンプトをモデルが解釈する仕方に大きなばらつきがあることを示唆する。
アブレーション研究により、ベンチマーク内容だけでなく、ジャッジ側の指示をローカライズすることが決定的になり得ることも判明する。例えば、ローカライズが部分的にしか行われない場合、ヒンディー語での満足度が急激に低下する。加えて、本論文は再現性のために判断結果と実行時の統計情報を公開する。

Abstract

評価言語は、エージェント的コードベンチマークにおいて固定された英語のデフォルトとして扱われるのが通常ですが、審判（ジャッジ）の言語を変更すると、バックボーンの順位が反転し得ることを示します。私たちは「Agent-as-a-Judge（審判としてのエージェント）」プロンプトスタックを、5つの類型論的に多様な言語（英語、アラビア語、トルコ語、中国語、ヒンディー語）にローカライズし、3つの開発者エージェントフレームワークおよび6つの審判バックボーンにまたがる55のDevAI開発タスクを評価します。合計で4950回の審判実行（judge runs）を行いました。中心となる発見は、バックボーンと言語が相互作用するという点です。GPT-4oは英語で最も高い満足度（44.72\%）を達成する一方、Geminiはアラビア語で優位（51.72\%、GPT-4oとの比較で

p<0.001

）であり、さらにヒンディー語でも主導します（53.22\%）。すべての言語にわたって単一のバックボーンが支配的になることはなく、個々の要件判断に関するバックボーン間の一致度は控えめです（Fleiss'

appa \leq 0.231

）。また、制御されたアブレーションにより、決定的なのはベンチマーク内容だけではなく、審判側の指示をローカライズすることだとさらに示されます。ヒンディー語の満足度は、部分的なローカライズのもとで42.8\%から23.2\%へ低下します。これらの結果は、言語をエージェント的ベンチマークにおける明示的な評価変数として扱うべきであることを示しています。再現性のために、要件レベルの完全な判断と実行時の統計情報を公開します。

Black Hat Asia

AI Business

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

Xの画像モザイクツールが追加される＆ポスト自動翻訳機能が日本以外でも展開開始＆xAIが10兆パラメーターのAIを開発中

GIGAZINE

Agent-as-a-Judgeにおけるマルチリンガル・プロンプトのローカライズ：要求レベル評価における言語と言語モデル（バックボーン）への感度

要点

Abstract

関連記事

Black Hat Asia

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

Xの画像モザイクツールが追加される＆ポスト自動翻訳機能が日本以外でも展開開始＆xAIが10兆パラメーターのAIを開発中

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

Xの画像モザイクツールが追加される＆ポスト自動翻訳機能が日本以外でも展開開始＆xAIが10兆パラメーターのAIを開発中

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別