テスト時スケーリング下での推論LLMのランキング付け
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、推論LLMにおけるテスト時スケーリングのための密度の高いベンチマークランキングを定式化し、対比較モデル、IRT、投票ルール、グラフ・スペクトルベースの手法を実装するオープンソースライブラリ Scorio を紹介する。
- 20個の推論モデルを対象に、4つのオリンピック風数学ベンチマークで全試行ランキングがベイズ金標準 Bayes_U@80 と概ね一致し、平均 Kendall の τ_b が 0.93–0.95、19–34 の手法が同じ順序を回復する。
- 単一試行設定では、最良の手法が τ_b ≈ 0.86 に達し、少数試行でも意味のあるランキングを示す。
- 貪欲デコードを経験的事前 Bayes_R0@N として用いると N=1 の分散を 16–52% 減らせるが、貪欲デコードと確率的サンプリングが意見を異にする場合にはランキングが偏る可能性がある。本研究は高予算および低予算のテスト時スケーリングの両方に適した信頼性の高い手法を示唆しており、Scorio を GitHub で公開している。
テスト時スケーリングは、各プロンプトに対して複数の出力をサンプリングして推論LLMを評価しますが、この設定でのランキングモデルは十分に探究されていません。本文の Abstract に対応する翻訳として以下を示します。
テスト時スケーリングは、1つのプロンプトにつき複数の出力をサンプリングして推論LLMを評価しますが、この設定でのランキングモデルは十分に研究されていません。私たちは、テスト時スケーリング下での密なベンチマークランキングを定式化し、対比較モデル、IRT(項目反応理論)モデル、投票規則、グラフおよびスペクトルベースの手法といった統計的ランキング手法を実装するライブラリ Scorio を導入します。20個の推論モデルを対象に、4つのオリンピック風数学ベンチマーク(AIME'24、AIME'25、HMMT'25、BrUMO'25;最大 $N=80$ 試行)にわたり、ほとんどの全試行ランキングはベイズ金標準 Bayes_U@80 と密接に一致し(平均 Kendall's τ_b = 0.93〜0.95)、19〜34 の手法が同じ順序を正確に回復します。単一試行設定では、最良の手法は τ_b ≈ 0.86 に達します。貪欲デコードを経験的事前 Bayes_R0@N として用いると、$N=1$ で分散が 16〜52% 減少しますが、貪欲デコードと確率的サンプリングが意見を異にする場合にはランキングに偏りが生じる可能性があります。これらの結果は、高予算および低予算のテスト時スケーリングの両方に信頼性の高いランキング手法を特定します。Scorio をオープンソースライブラリとして公開します。URL: https://github.com/mohsenhariri/scorio。