Step-GRPO：効率的推論のための動的イージーアウト（早期終了）をモデル内部化する

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模な推論モデルに対し「動的な早期終了（dynamic early-exit）」の振る舞いを事後学習でモデル内部に組み込むことで、無駄な計算を削減する枠組みStep-GRPOを提案しています。
Step-GRPOは、トークン数そのものではなく言語マーカーを用いて推論を「意味的なステップ」に構造化し、そのステップ単位で最適化する点が特徴です。
Dynamic Truncated Rolloutにより、探索中に短く高確信の軌跡をモデルに経験させることで、早期終了を学習しやすくしています。
さらに、群（グループ）レベルのベースラインに基づいて冗長な推論を動的に罰するStep-Aware Relative Rewardを導入しています。
複数のモデル規模と多様なベンチマークで検証した結果、精度と効率のトレードオフが改善し、Qwen3-8Bでは従来の長さペナルティ手法で見られた精度低下を回避しつつトークン消費を32.0%削減できたと報告されています。

概要: 長い思考過程（chain-of-thought）を用いる大規模推論モデルは問題解決に優れる一方で、冗長な確認により計算を無駄にしてしまいます。この過度な考えすぎを抑制するのは難しいです。学習時の長さペナルティは能力を大きく損ねる可能性がある一方、推論時の早期終了（early-exit）はシステムのオーバーヘッドを増やします。このギャップを埋めるために、我々は Step-GRPO（Step-GRPO）という新しい事後学習（post-training）フレームワークを提案します。これは、動的な早期終了能力をモデル内部に直接内在化するものです。Step-GRPO は、最適化の目的を生のトークンから意味的ステップへと切り替え、言語的マーカーを利用して推論を構造化します。探索の過程でモデルに簡潔で高い確信を伴う軌跡を提示する「Dynamic Truncated Rollout（動的打ち切りロールアウト）」機構を導入し、さらに「Step-Aware Relative Reward（ステップを考慮した相対報酬）」によって、グループ全体のベースラインに基づき冗長性を動的にペナルティ付けすることで相乗効果を得ます。3種類のモデル規模にわたる多様なベンチマークでの大規模実験により、Step-GRPO が優れた精度と計算効率のトレードオフを達成することを示します。Qwen3-8B では、我々の手法は従来のバニラモデルに比べてトークン消費を 32.0\% 削減しつつ、従来型の長さペナルティ手法で観測される精度低下を回避します。