過考える／考えなさすぎを避ける：LLMのカリキュラム対応バジェットスケジューリング

arXiv cs.CL / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、従来のLLMのテスト時推論で固定または一様にサンプルされたトークン・バジェットを使うことが、簡単な問題での過剰な推論と難しい問題での不足を招き、トークン効率を損ねると指摘しています。
それを改善するために、Budget-Adaptive Curriculum Reasoning（BCAE/BACR）を提案し、(1) バジェット条件付きの統一ポリシー、(2) 学習の進捗に基づくカリキュラム対応バジェットスケジューラ、(3) 手順レベルの検証を伴う打ち切り（truncation）を考慮した密な報酬、の3要素で推論品質とトークン効率を同時に高めます。
サンプルしたバジェットに基づいてアドバンテージ基準を条件付けすることで、勾配の分散を抑える新しい手法Budget-Conditioned Advantage Estimationも導入しています。
MATH、GSM8K、AIME、Minerva Mathといった数学推論ベンチマークでの実験では、全トークン・バジェット範囲で一貫した改善が示され、厳しいバジェット条件下で最大8.3%の精度向上と、制約なし推論に比べ平均トークン使用量を34%削減しています。

要旨: 拡張された推論によってテスト時の計算量をスケールすることは、大規模言語モデル（LLM）の能力向上のための主要なパラダイムとなっています。しかし、既存の手法は固定または一様にサンプリングされたトークン予算のもとで推論を最適化するにとどまり、問題の難しさと割り当てられた計算資源との根本的な不一致を無視しています。その結果、簡単な問題では過考察となり、難しい問題では思考不足となり、さまざまな推論シナリオにおいてトークン効率が最適になりません。本論文では、推論の質とトークン効率を、3つの相乗的な構成要素を通じて同時に最適化する統一フレームワークである Budget-Adaptive Curriculum Reasoning（BCAE）を提案します：（1）
トークン予算を連続的な条件付け信号として埋め込む
mph{予算条件付き統一ポリシー} により、分離した思考や要約戦略の必要をなくします；（2）
リアルタイムの学習進捗に基づいて、学習予算の分布を容易な問題から困難な問題へと適応的にシフトさせる
mph{カリキュラム対応の予算スケジューラ}；（3）
過程レベルの検証を通じて、中間の推論ステップにおけるきめ細かなクレジット割当てを提供する
mph{切り捨て認識の高密度報酬} 機構です。さらに、サンプルされた予算に基づいてアドバンテージのベースラインを条件付けし、より安定したポリシー勾配を得る新しい分散低減手法である
mph{Budget-Conditioned Advantage Estimation}（BCAE）も導入します。数学的推論ベンチマーク（MATH, GSM8K, AIME, Minerva Math）での実験により、BACR があらゆるトークン予算において他の強力なベースラインを一貫して上回り、厳しい予算下で最大 8.3mph{%}
の精度向上を達成する一方で、制約なしの推論と比べて平均トークン消費を 34mph{%} 低減できることを示します。