概要: 大規模推論モデル(LRM)は複雑な問題解決に革命をもたらしましたが、「過剰に考え込む(overthinking)」という広範な現象が見られ、不要に長い推論チェーンを生成します。現在の解決策はトークン効率を改善する一方で、細かな制御を犠牲にしたり、推論プロセスの論理的整合性を損なうリスクを招いたりすることがしばしばあります。これに対処するために、我々は中間ステップ単位で、難易度を考慮した枝刈りを行いながら、推論の中核となる構造を保持する枠組みである「Stepwise Adaptive Thinking(SAT)」を導入します。SATは推論を、明確な思考モード(Slow, Normal, Fast, Skip)を持つ有限状態機械(FSM)として定式化します。SATは軽量なプロセス報酬モデル(PRM)を用いてこれらの状態を動的に遷移させ、簡単なステップを圧縮しつつ、難しいステップには深さを保持します。9つのLRMと7つのベンチマークにわたる実験の結果、SATは推論トークンを最大40%削減しつつ、概ね精度を維持または改善できることが示されました。
SAT: ステップごとの適応的思考によって推論の正確性と効率を両立する
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模推論モデルにおける「過考」を減らすために、推論のステップ単位で不要な部分を刈り込みつつ、基盤となる論理を壊さない Stepwise Adaptive Thinking(SAT)を提案する。
- SATは、推論過程を有限状態機械としてモデル化し、モード(Slow/Normal/Fast/Skip)をステップの難しさに応じて動的に切り替える。
- 軽量なProcess Reward Model(PRM)が状態遷移を導き、簡単なステップを圧縮しつつ、難しいステップでは深さを保持する。
- 9つのLRMモデルと7つのベンチマークに対する実験では、推論トークンを最大40%削減し、精度は概ね維持または向上する結果が報告されている。
- このアプローチは、トークン効率ときめ細かな制御のバランスを目指し、従来手法で見られた「トークン使用の最適化の代償として推論の整合性が損なわれる」というトレードオフに対処する。


