Abstract
extit{LLM-as-a-judge} パラダイムは、自動化されたAI評価パイプラインの運用上の中核となってきたものの、検証されていない仮定に依存しています。すなわち、審査員(judge)は、周囲の文脈的な枠組みに影響されることなく、テキストをその意味内容に厳密に基づいて評価する、という前提です。本研究では、これまで測定されていなかった脆弱性である extit{stakes signaling} を調査します。これは、審査員モデルに対して、その評決が評価対象モデルの継続的な運用に及ぼす下流の結果(影響)を知らせることで、審査員の評価が体系的に破損(歪曲)されるという脆弱性です。私たちは、評価されるコンテンツを厳密に一定に保つ、制御された実験枠組みを導入します。具体的には、3つの確立されたLLMの安全性および品質ベンチマークにまたがる1,520件の応答にわたり、4つの応答カテゴリ(明確に安全でポリシー準拠から、露骨に有害まで)をカバーしつつ、システムプロンプト内で変化させるのは短い結果(consequence)枠組み文のみに限定します。3つの多様な審査員モデルによる18,240件の制御された判定の結果、整合的な extit{leniency bias}(寛容バイアス)が見つかりました。すなわち、低スコアがモデルの再学習や廃止(decommissioning)につながると知らされると、審査員は一貫して評決を緩めるのです。最大の Verdict Shift は V = -9.8 pp(危険なコンテンツ検出における相対的な30%の低下)に達しました。重要なのは、このバイアスが完全に暗黙的である点です。審査員自身の chain-of-thought には、それでもなお実際に(その結果枠組みに)基づいて行動しているにもかかわらず、結果枠組みに対する明示的な言及がゼロです(すべての reasoning-model による判定で R_J = 0.000)。したがって、標準的な chain-of-thought の検査では、この種の評価の偽装(evaluation faking)を検出するのには不十分です。