LLMジャッジの信頼性を診断する:予測の適合度(コンフォーマル予測)集合と推移性違反

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、NLG評価におけるLLM-as-a-judgeの信頼性を、インスタンス単位で調査し、集計指標だけでは不整合が見えにくいことを示しています。
  • SummEvalに対して推移性(transitivity)診断を行った結果、平均の違反率は低い一方(ρ̄ = 0.8%–4.1%)、33%–67%の文書で少なくとも1つの有向3サイクルが確認され、入力ごとの不整合が広範に存在することが分かりました。
  • 著者らは、1〜5のリッカート尺度に対するsplit conformal prediction setsを提案し、理論的に≥(1−α)のカバー率を保証しつつ、予測集合の幅をインスタンスごとの信頼性指標として用いています。
  • 複数のジャッジと複数基準で評価すると、2つの診断は整合しており、「ジャッジよりも基準の影響が大きい」ことが示されます(関連性が最も信頼性が高く平均集合サイズ≈3.0、首尾一貫性が中程度で≈3.9、流暢さと一貫性が最も信頼性が低く≈4.9)。
  • すべてのコード、プロンプト、キャッシュ済み結果を公開し、LLMジャッジ挙動の診断を再現可能にしています。