同一入力でもスコアが異なる：LLMジャッジの不整合性に関するマルチモデル研究

arXiv cs.CL / 2026/3/6

Ideas & Deep AnalysisModels & Research

共有:

要点

本論文は、実際の企業RAGのQAペアを用い、一般的な5つのモデルにわたってLLM-as-a-judgeのスコア安定性を評価している。
繰り返し実行間でスコアが大きく変動し、「完全性（completeness）」の採点が最も大きく揺らぐことを、temperature=0でも確認した。
モデル間比較では、厳しさや解釈の仕方に体系的な差があり、同一入力に対してもスコアが分岐することを示す。
低温度は一部モデル（特にGPT-4oとGemini）では安定性を改善するが、Anthropicのモデルでは効果が限定的、または一貫しない。
ルーティング、ゲーティング、QCにLLMスコアを用いる本番ワークフローは、公平性・再現性・運用信頼性に関するリスクに直面し得るため、監視と人間-LLMのハイブリッド評価が動機づけられる。

この記事の続きは原文サイトでお読みいただけます。