要旨: 「LLMを審判として用いるパラダイム」は、オープンエンド生成を評価する標準的な方法となっている。ペアワイズ比較の二次的スケーラビリティのコストに対処するために、Arena-Hard や AlpacaEval のような人気のベンチマークは、すべてのモデルを単一のアンカーと比較する。しかし、広く用いられているにもかかわらず、アンカー選択が結果の信頼性に与える影響はほとんど探究されていない。本研究では、Arena-Hard-v2.0 データセットで22個の異なるアンカーを評価することにより、アンカー選択の影響を体系的に調査する。アンカーの選択は極めて重要であることが分かった。低品質のアンカーは人間のランキングとの相関を著しく低下させうる。一般的なアンカーの選択肢(最も優れているモデルと最も劣っているモデル)は、良いアンカーではないことを特定した。これらの極端なアンカーは、他のすべてのモデルよりも一貫して良いか悪いかであるため、モデル間の相対的なランキングを示す指標にはほとんどならない。さらに、アンカー選択の効果量を定量化し、ジャッジモデルの選択と同程度であることを示す。実用的な推奨事項をもって結論付ける。第一に、検出力分析を実施し、アンカー基準評価の十分なベンチマークサイズを計算する。標準的なベンチマークサイズはペアワイズ評価には不十分であり、競合するモデルを信頼性高く区別できないことがわかった。第二に、信頼性が高く効率的な評価を確保するための、有用なアンカーの選択に関するガイドラインを提供する。
LLMをジャッジのアンカーとして選択する際の鍵は凡庸さである
arXiv cs.CL / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は Arena-Hard-v2.0 データセット上で22個のアンカーを系統的に評価し、アンカーの選択がモデルのランキングの信頼性に人間の判断と比較して決定的な影響を与えることを示した。
- 一般的なアンカー、例えば最も性能が高いモデルや最も性能が低いモデルといったものは極端であり、ほとんどのモデルの相対的な序列を反映できないため適切とは言えない。
- 本研究は、アンカー選択の効果量がジャッジモデルの選択効果と同程度であることを見出し、ベンチマーク設計におけるその重要性を強調している。
- パワー分析は、標準的なベンチマークサイズでは信頼性の高いペアワイズ評価には不十分であり、競合するモデルを区別することは確実にはできないことを示している。
- 著者らは、有益なアンカーを選択するためのガイドラインや、信頼性の高く効率的な評価を確保するためのベンチマークサイズの適切性を確保する方法といった実用的な推奨事項を提示している。