判定者を検証する:LLM-as-a-Judgeパイプラインにおけるバイアス低減戦略の体系的評価

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM-as-a-Judgeの信頼性を検証し、LLMジャッジが一貫したバイアスを示すことで評価の信頼性が損なわれることを明らかにしている。
  • 4つの提供元ファミリーの5種類のジャッジモデルと複数のベンチマークに対し9つのバイアス低減戦略を比較した結果、スタイル・バイアスが支配的である(0.76–0.92)一方、位置バイアスはごく小さい(≤0.04)。
  • また、拡張ペアにおける簡潔さの選好が見られるものの、切り詰め(トランケーション)による制御では品質と長さを高い精度で区別できることが示されている(0.92–1.00)。
  • バイアス低減は有効だが、効果はモデル依存であり、結合バジェット戦略はClaude Sonnet 4で統計的に有意な改善をもたらした(+11.2ポイント、p < 0.0001)。
  • 著者らは、評価フレームワーク、制御データセット、すべての実験成果物を公開し、追試や追加研究を可能にしている。

Abstract

LLM-as-a-Judge は、言語モデルの出力を評価するための支配的なパラダイムとなっていますが、LLM 判定者(judge)は系統的なバイアスを示し、評価の信頼性を損ないます。本稿では、4つのプロバイダ系統(Google、Anthropic、OpenAI、Meta)からの5つの判定モデルに対し、9つの脱バイアス戦略を、3つのベンチマーク(MT-Bench n=400、LLMBar n=200、カスタム n=225)、および4つのバイアスタイプにわたって比較する包括的な実証研究を提示します。主要な知見は以下のとおりです。(1)スタイル・バイアスが支配的なバイアスです(全モデルにおいて0.76-0.92)。位置バイアス(<= 0.04)を大きく上回りますが、ほとんど研究上の注目がなされていません。(2)すべてのモデルで、拡張ペア(expansion pairs)に対する簡潔さの選好が見られます。しかし、切り詰め(truncation)による制御は、質の高低を長さから正しく区別できていることを確認します(精度0.92-1.00)。これは単純な長さバイアスではなく、質に敏感な評価であることを示唆します。(3)脱バイアスは有益ですが、モデル依存です。結合予算戦略(combined budget strategy)は Claude Sonnet 4 を +11.2 pp(p < 0.0001)と有意に改善し、他のモデルでも方向性としては正の傾向が見られます。一方、ベースライン以外の20構成のうち、合意が低下したのは2件のみです。評価フレームワーク、制御済みデータセット、およびすべての実験アーティファクトを https://github.com/sksoumik/llm-as-judge で公開します。