LLMsがLLMsを評価する:単体(シンプレックス)の観点から

arXiv stat.ML / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMによってLLM出力(自由形式の出力)を自動評価する手法を研究し、「judge-only(判定者のみ)」のアプローチは一般に、(サンプリングに伴う)アレアトリック不確実性のみをモデル化し、エピステミック(判定者の品質に起因する)不確実性を無視しがちだと主張する。
  • $M$段階のスコアリングに対して、幾何学的な解釈を導入する。すなわち、判定者の出力と候補の出力の双方を、$(M-1)$次元の確率単体(確率シンプレックス)の点として写像できると考え、三角形の面積に基づく対応付けにより、順位付けの概念と結び付ける。
  • 単体フレームワークは、順位が識別可能になる条件と、そのときの理論的な根拠(証明)を与える。さらに、「対(ペア)ごとのスコアリング/二段階($M=2$)」は、多段階($M>2$)のスコアリングよりも、LLM判定者と相性がよくなりやすい傾向があるという考えを、形式的に支持する。
  • 著者らは、判定者の品質に関するエピステミック不確実性を明示的に表現する幾何学的ベイズ事前分布を提案し、それらの事前分布を変化させた感度分析を行う。
  • LLMベンチマークでの実験では、judge-onlyによる順位付けはしばしば頑健である一方で、一部のデータセットでは失敗することが示される。さらに、ベイズの不確実性を考慮した手法は、既存手法よりも大幅に高いカバレッジを達成する。

Abstract

大規模言語モデル(LLM)の自由形式出力を自動的に評価するという課題に対して、近年ますます一般的になっている解決策は、ゴールドスタンダードのスコアを一切用いずに、LLM自身を判断(ジャッジ)メカニズムとして使うことです。暗黙のうちに、この実践は(アレアトリック不確実性である)サンプリングのばらつきだけを説明し、(エピステミック不確実性である)判断者の品質に関する不確実性を無視しています。判断者が完全に正確である場合にはこの方針が正当化されますが、このようなアプローチが理論的に妥当であり、かつ実務的にも頑健であるのはいつなのかは明らかではありません。私たちは、LLM候補をランキング付けするタスクを、新しい幾何学的観点から研究します。Mレベルのスコアリングシステムでは、LLMジャッジと候補の双方を (M-1) 次元確率単体上の点として表現でき、幾何学的概念(例えば三角形の面積)は重要なランキング概念に対応します。この観点により、ランキングが識別可能になる条件についての直感的な理論的条件と、視覚的な証明が得られます。例えば、LLMジャッジは多段階スコアリング(M>2)よりも二段階スコアリング(M=2)の方が効果的である、という「よくある格言(folk wisdom)」に対して形式的な根拠を提示します。単体(シンプレックス)を活用し、判断者品質に関するエピステミック不確実性をエンコードする幾何学的ベイズ事前分布を設計し、事前分布を変化させて感度分析を行います。LLMベンチマークでの実験では、LLMジャッジのみに基づくランキングは多くのデータセットでは頑健ですが、すべてではないことが示されます。これは、広く成功していることと、注意が必要であることの両方を裏付けます。私たちのベイズ手法は、既存の手続きよりも大幅に高いカバレッジ率を達成し、エピステミック不確実性のモデリングの重要性を強調しています。