判定者を検証する:LLM-as-a-Judgeパイプラインにおけるバイアス低減戦略の体系的評価
arXiv cs.AI / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM-as-a-Judgeの信頼性を検証し、LLMジャッジが一貫したバイアスを示すことで評価の信頼性が損なわれることを明らかにしている。
- 4つの提供元ファミリーの5種類のジャッジモデルと複数のベンチマークに対し9つのバイアス低減戦略を比較した結果、スタイル・バイアスが支配的である(0.76–0.92)一方、位置バイアスはごく小さい(≤0.04)。
- また、拡張ペアにおける簡潔さの選好が見られるものの、切り詰め(トランケーション)による制御では品質と長さを高い精度で区別できることが示されている(0.92–1.00)。
- バイアス低減は有効だが、効果はモデル依存であり、結合バジェット戦略はClaude Sonnet 4で統計的に有意な改善をもたらした(+11.2ポイント、p < 0.0001)。
- 著者らは、評価フレームワーク、制御データセット、すべての実験成果物を公開し、追試や追加研究を可能にしている。

