AI Navigate

LLMジャッジのスコアは一見良さそうだが、Best-of-N の判断は失敗する

arXiv cs.AI / 2026/3/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 大規模言語モデル(LLM)は候補回答を評価するジャッジとして使われるが、グローバル指標だけに依存することは、プロンプト内の Best-of-N 選択タスクにとって誤解を招く可能性がある。
  • 5,000プロンプトの Best-of-4 ベンチマークでは、グローバル相関が中程度(r = 0.47)のジャッジは、完全な選択がランダム選択を上回る際の潜在的改善の約21%しか捉えられない。
  • この不足は、グローバルな合意がプロンプトレベルのベースライン効果によって支配される一方、実効的な選択はプロンプト内のランキング(プロンプト内相関 r_within ≈ 0.27)と、ペアワイズ比較の結論の同点が高い割合(約67%)に依存するために発生します。
  • マッチドペアの Best-of-2 監査における明示的なペアワイズ判定は、失われた信号の多くを取り戻し、回復率を約21%から約61%へと引き上げる。さらに、監査はグローバルな合意だけでなく、プロンプト内信号、同点率、トップ1回復率を報告すべきだと示唆しています。

要旨: 大規模言語モデルはしばしば候補応答を評価する審査者として用いられ、その後、参照ラベルとの相関といった単一のグローバル指標で検証されます。これは、実際のデプロイメントタスクがプロンプト内の n 件から最良を選ぶ best-of-n である場合には誤解を招く可能性があります。

Chatbot Arena の 5,000 件のプロンプトから成る best-of-4 ベンチマークでは、中程度のグローバル相関 (r = 0.47) を持つ審査者は、完璧な選択がランダムな選択を上回って達成する改善のうち、21.0% のみを捉える。
このギャップは、グローバルアグリーメントが主にプロンプトレベルのベースライン効果によって推進される一方、選択はプロンプト内のランキングに依存するために生じます。プロンプト内相関はわずか r_within = 0.27 であり、粗い点ごとのスコアリングは対比較の 67% で同点を生み出します。

対応するペアの best-of-2 監査では、明示的なペアワイズ評価がこの失われた信号の多くを回復し、回復率を 21.1% から 61.2% へ引き上げます。
審査者ベースの選択では、関連する監査はプロンプト内の信号、同点率、および回復率/Top-1 精度を報告すべきであり、グローバルな合意だけを報告するべきではありません。