推論LLM向け：制約付き方策最適化による適応的なテスト時コンピュート配分

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論重視のLLMにおいて推論時に追加計算をどの入力に割り当てるべきかを扱い、限られた計算予算の下で「多く計算すべき入力」と「安く答えられる入力」を選別する方法を提案しています。
平均計算予算の制約下で期待精度を最大化するという制約付き最適化問題として定式化し、「Solve-then-Learn（解いてから学習）」の2段階で解きます。
Solve段階ではラグランジュ緩和によりグローバルな予算制約を各インスタンスの部分問題へ分解し、閉形式のオラクル行動を導出するとともに、双対変数に対してコストが単調に変化することを示し、バジェット調整を二分探索で正確に行えるようにしています。
Learn段階では、安価な入力特徴からオラクル行動を予測する軽量な分類器を学習し、実時間での配備を効率化しつつ、模倣誤差に基づいて学習方策のリグレットを抑える理論的な保証を与えています。
MATHおよびGSM8KでDeepSeek-V3、GPT-4o-mini、Qwen2.5-7Bの3モデルを用いた実験では、一様・ヒューリスティックな割当より一貫して性能が向上し、同一予算条件でMATHにおいて最大12.8%の相対精度改善、模倣精度91%以上を達成しました。