同一入力でもスコアが異なる:LLMジャッジの不整合性に関するマルチモデル研究

arXiv cs.CL / 2026/3/6

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は、実際の企業RAGのQAペアを用い、一般的な5つのモデルにわたってLLM-as-a-judgeのスコア安定性を評価している。
  • 繰り返し実行間でスコアが大きく変動し、「完全性(completeness)」の採点が最も大きく揺らぐことを、temperature=0でも確認した。
  • モデル間比較では、厳しさや解釈の仕方に体系的な差があり、同一入力に対してもスコアが分岐することを示す。
  • 低温度は一部モデル(特にGPT-4oとGemini)では安定性を改善するが、Anthropicのモデルでは効果が限定的、または一貫しない。
  • ルーティング、ゲーティング、QCにLLMスコアを用いる本番ワークフローは、公平性・再現性・運用信頼性に関するリスクに直面し得るため、監視と人間-LLMのハイブリッド評価が動機づけられる。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →