すべてのターンが同じくらい難しいわけではない:効率的なマルチターン推論のための適応的な思考予算

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの推論による改善が頭打ちになりつつあるため、推論時の計算効率を高めることが重要だと主張する。特に、ターン同士が互いに依存するマルチターン設定では、不要に長い「思考トレース」を減らすことが不可欠である。
  • マルチターン推論を、マルチ目的のマルコフ決定過程(MDP)として、逐次的な計算配分問題に定式化し、さらに、問題全体に課されたトークン制約のもとで各ターンに割り当てるトークン予算を適応的に調整する手法 TAB(Turn-Adaptive Budgets)を提案する。
  • TAB は Group Relative Policy Optimization(GRPO)で学習し、精度を最大化しつつ、簡単なターンではより少ないトークンを使い、難しく重要な推論ステップにはより多くのトークンを温存することを学ぶ。
  • 数学的推論ベンチマークでの実験により、TAB は精度–トークンのトレードオフでより良い性能を示し、静的および市販の(オフ・ザ・シェルフ)予算ベースラインに対して精度を維持したまま最大 35% のトークン節約を達成する。
  • 本論文はさらに、利用可能な下位質問(sub-questions)の計画を活用して、過去および未来の下位質問にわたって予算を配分する TAB All-SubQ も提案しており、ベースラインに対して最大 40% のトークン節約につながる。

Abstract

LLMの推論性能が頭打ちになる中、推論時の計算効率を改善することは、単純な質問であっても過剰な考え込みや長い思考トレースを抑えるために重要です。長さ正則化、適応的ルーティング、難易度に基づく予算配分などの従来手法は、主にシングルターンの設定に焦点を当てており、多ターン推論に内在する逐次的な依存関係に対処できていません。 本研究では、多ターン推論を逐次的な計算配分問題として定式化し、それを多目的マルコフ決定過程としてモデル化します。提案手法TAB: Turn-Adaptive Budgets(ターン適応型予算)は、Group Relative Policy Optimization(GRPO)によって訓練される予算配分方策であり、問題ごとのトークン上限というグローバルな制約を守りながら、タスク精度を最大化することを学習します。その結果、TABは入力として会話履歴を受け取り、理解しやすいターンにはより小さな予算を適応的に割り当て、重要でより難しい推論ステップに対して適切な数のトークンを温存することを学習します。数学的推論ベンチマークでの実験により、TABは、静的および市販の既製LLMの予算ベースラインと同等の精度を維持しつつ、最大35%のトークンを節約するという、精度とトークンのトレードオフにおいて優れた性能を達成することを示します。さらに、事前にすべての下位質問の計画が利用可能なシステムでは、会話履歴と過去・未来のすべての下位質問に基づいてトークン予算を配分する予算配分方策TAB All-SubQを提案し、ベースラインに対して最大40%のトークンを節約できます。