Abstract
大規模言語モデル(LLM)の自由形式出力を自動的に評価するという課題に対して、近年ますます一般的になっている解決策は、ゴールドスタンダードのスコアを一切用いずに、LLM自身を判断(ジャッジ)メカニズムとして使うことです。暗黙のうちに、この実践は(アレアトリック不確実性である)サンプリングのばらつきだけを説明し、(エピステミック不確実性である)判断者の品質に関する不確実性を無視しています。判断者が完全に正確である場合にはこの方針が正当化されますが、このようなアプローチが理論的に妥当であり、かつ実務的にも頑健であるのはいつなのかは明らかではありません。私たちは、LLM候補をランキング付けするタスクを、新しい幾何学的観点から研究します。Mレベルのスコアリングシステムでは、LLMジャッジと候補の双方を (M-1) 次元確率単体上の点として表現でき、幾何学的概念(例えば三角形の面積)は重要なランキング概念に対応します。この観点により、ランキングが識別可能になる条件についての直感的な理論的条件と、視覚的な証明が得られます。例えば、LLMジャッジは多段階スコアリング(M>2)よりも二段階スコアリング(M=2)の方が効果的である、という「よくある格言(folk wisdom)」に対して形式的な根拠を提示します。単体(シンプレックス)を活用し、判断者品質に関するエピステミック不確実性をエンコードする幾何学的ベイズ事前分布を設計し、事前分布を変化させて感度分析を行います。LLMベンチマークでの実験では、LLMジャッジのみに基づくランキングは多くのデータセットでは頑健ですが、すべてではないことが示されます。これは、広く成功していることと、注意が必要であることの両方を裏付けます。私たちのベイズ手法は、既存の手続きよりも大幅に高いカバレッジ率を達成し、エピステミック不確実性のモデリングの重要性を強調しています。