同一入力でもスコアが異なる:LLMジャッジの不整合性に関するマルチモデル研究
arXiv cs.CL / 2026/3/6
Ideas & Deep AnalysisModels & Research
要点
- 本論文は、実際の企業RAGのQAペアを用い、一般的な5つのモデルにわたってLLM-as-a-judgeのスコア安定性を評価している。
- 繰り返し実行間でスコアが大きく変動し、「完全性(completeness)」の採点が最も大きく揺らぐことを、temperature=0でも確認した。
- モデル間比較では、厳しさや解釈の仕方に体系的な差があり、同一入力に対してもスコアが分岐することを示す。
- 低温度は一部モデル(特にGPT-4oとGemini)では安定性を改善するが、Anthropicのモデルでは効果が限定的、または一貫しない。
- ルーティング、ゲーティング、QCにLLMスコアを用いる本番ワークフローは、公平性・再現性・運用信頼性に関するリスクに直面し得るため、監視と人間-LLMのハイブリッド評価が動機づけられる。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



