すべてのターンが同じくらい難しいわけではない:効率的なマルチターン推論のための適応的な思考予算
arXiv cs.LG / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの推論による改善が頭打ちになりつつあるため、推論時の計算効率を高めることが重要だと主張する。特に、ターン同士が互いに依存するマルチターン設定では、不要に長い「思考トレース」を減らすことが不可欠である。
- マルチターン推論を、マルチ目的のマルコフ決定過程(MDP)として、逐次的な計算配分問題に定式化し、さらに、問題全体に課されたトークン制約のもとで各ターンに割り当てるトークン予算を適応的に調整する手法 TAB(Turn-Adaptive Budgets)を提案する。
- TAB は Group Relative Policy Optimization(GRPO)で学習し、精度を最大化しつつ、簡単なターンではより少ないトークンを使い、難しく重要な推論ステップにはより多くのトークンを温存することを学ぶ。
- 数学的推論ベンチマークでの実験により、TAB は精度–トークンのトレードオフでより良い性能を示し、静的および市販の(オフ・ザ・シェルフ)予算ベースラインに対して精度を維持したまま最大 35% のトークン節約を達成する。
- 本論文はさらに、利用可能な下位質問(sub-questions)の計画を活用して、過去および未来の下位質問にわたって予算を配分する TAB All-SubQ も提案しており、ベースラインに対して最大 40% のトークン節約につながる。




