要旨: 大規模言語モデル(LLM)は、推論時に大きな計算量を割り当てることで強力な推論性能を達成し、しばしば長く冗長な推論トレースを生成します。近年の効率的推論に関する研究では、長さに基づく報酬や枝刈りによって、このオーバーヘッドを低減する取り組みが進んでいます。しかし多くの手法は、ベースモデルの学習時よりもはるかに短いコンテキスト窓でポストトレーニングされており、その影響は体系的に切り分けられていません。私たちはまず、長さに応じた目的関数を一切使わず、標準的なGRPOのみで短コンテキストのポストトレーニングを行うだけでも、大きな推論圧縮がすでに生じることを示しますが、その代償として、学習ダイナミクスがますます不安定になり、精度が低下します。これに対処するため、私たちは推論ステップ単位で動作し、正しいロールアウトにおける低自信のステップにはゼロのアドバンテージを与え、検証器(verifier)の失敗ロールアウトにおける高自信のステップにもゼロのアドバンテージを与える Step-level Advantage Selection(SAS)を提案します。ここでの失敗は、多くの場合、誤った推論というよりも、切り詰め(truncation)や検証器の問題によって生じます。多様な数学系および一般推論ベンチマークにおいて、SASは最強の長さを考慮したベースラインに比べ平均Pass@1精度を0.86ポイント向上させ、同時に平均推論長を16.3%削減し、より良い精度と効率のトレードオフを実現します。
推論を効率化するためのステップ単位アドバンテージ選択による安定化
arXiv cs.CL / 2026/4/28
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この研究は、標準的なGRPOで長さを意識した目的を入れずに、短いコンテキストで推論を効率化するためのポストトレーニングを行うと、推論トレースは圧縮される一方で学習が不安定になり、精度が低下し得ることを示しています。
- 先行手法の重要な制約として、長さ最適化やプルーニングを行っていても、ベースモデルの学習時と比べて短いコンテキスト条件でポストトレーニングされているケースが多く、その影響が体系的に切り分けられていない点を指摘しています。
- そこで著者らは、推論の各ステップ単位でアドバンテージを割り当てる Step-level Advantage Selection(SAS)を提案し、信頼度とロールアウト結果に応じて安定性と性能を高めようとします。
- SASは、正しいロールアウト内の低信頼度ステップや、検証器の失敗となったロールアウト内の高信頼度ステップにゼロのアドバンテージを与え、切り捨てや検証器の問題による失敗を推論ミスと区別して扱うことを狙います。
- 数学系および一般推論ベンチマークでの実験では、SASが最良の長さ意識ベースラインより平均Pass@1精度を0.86ポイント向上させつつ、平均推論長を16.3%削減し、精度と効率のトレードオフを改善することが示されています。

