テスト時スケーリング下での推論LLMのランキング付け

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、推論LLMにおけるテスト時スケーリングのための密度の高いベンチマークランキングを定式化し、対比較モデル、IRT、投票ルール、グラフ・スペクトルベースの手法を実装するオープンソースライブラリ Scorio を紹介する。
20個の推論モデルを対象に、4つのオリンピック風数学ベンチマークで全試行ランキングがベイズ金標準 Bayes_U@80 と概ね一致し、平均 Kendall の τ_b が 0.93–0.95、19–34 の手法が同じ順序を回復する。
単一試行設定では、最良の手法が τ_b ≈ 0.86 に達し、少数試行でも意味のあるランキングを示す。
貪欲デコードを経験的事前 Bayes_R0@N として用いると N=1 の分散を 16–52% 減らせるが、貪欲デコードと確率的サンプリングが意見を異にする場合にはランキングが偏る可能性がある。本研究は高予算および低予算のテスト時スケーリングの両方に適した信頼性の高い手法を示唆しており、Scorio を GitHub で公開している。

テスト時スケーリングは、各プロンプトに対して複数の出力をサンプリングして推論LLMを評価しますが、この設定でのランキングモデルは十分に探究されていません。本文の Abstract に対応する翻訳として以下を示します。テスト時スケーリングは、1つのプロンプトにつき複数の出力をサンプリングして推論LLMを評価しますが、この設定でのランキングモデルは十分に研究されていません。私たちは、テスト時スケーリング下での密なベンチマークランキングを定式化し、対比較モデル、IRT（項目反応理論）モデル、投票規則、グラフおよびスペクトルベースの手法といった統計的ランキング手法を実装するライブラリ Scorio を導入します。20個の推論モデルを対象に、4つのオリンピック風数学ベンチマーク（AIME'24、AIME'25、HMMT'25、BrUMO'25；最大 $N=80$ 試行）にわたり、ほとんどの全試行ランキングはベイズ金標準 Bayes_U@80 と密接に一致し（平均 Kendall's τ_b = 0.93〜0.95）、19〜34 の手法が同じ順序を正確に回復します。単一試行設定では、最良の手法は τ_b ≈ 0.86 に達します。貪欲デコードを経験的事前 Bayes_R0@N として用いると、$N=1$ で分散が 16〜52% 減少しますが、貪欲デコードと確率的サンプリングが意見を異にする場合にはランキングに偏りが生じる可能性があります。これらの結果は、高予算および低予算のテスト時スケーリングの両方に信頼性の高いランキング手法を特定します。Scorio をオープンソースライブラリとして公開します。URL: https://github.com/mohsenhariri/scorio。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

テスト時スケーリング下での推論LLMのランキング付け

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer