要旨: 大規模言語モデルはしばしば候補応答を評価する審査者として用いられ、その後、参照ラベルとの相関といった単一のグローバル指標で検証されます。これは、実際のデプロイメントタスクがプロンプト内の n 件から最良を選ぶ best-of-n である場合には誤解を招く可能性があります。
Chatbot Arena の 5,000 件のプロンプトから成る best-of-4 ベンチマークでは、中程度のグローバル相関 (r = 0.47) を持つ審査者は、完璧な選択がランダムな選択を上回って達成する改善のうち、21.0% のみを捉える。
このギャップは、グローバルアグリーメントが主にプロンプトレベルのベースライン効果によって推進される一方、選択はプロンプト内のランキングに依存するために生じます。プロンプト内相関はわずか r_within = 0.27 であり、粗い点ごとのスコアリングは対比較の 67% で同点を生み出します。
対応するペアの best-of-2 監査では、明示的なペアワイズ評価がこの失われた信号の多くを回復し、回復率を 21.1% から 61.2% へ引き上げます。
審査者ベースの選択では、関連する監査はプロンプト内の信号、同点率、および回復率/Top-1 精度を報告すべきであり、グローバルな合意だけを報告するべきではありません。