すべてのターンが同じくらい難しいわけではない：効率的なマルチターン推論のための適応的な思考予算

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの推論による改善が頭打ちになりつつあるため、推論時の計算効率を高めることが重要だと主張する。特に、ターン同士が互いに依存するマルチターン設定では、不要に長い「思考トレース」を減らすことが不可欠である。
マルチターン推論を、マルチ目的のマルコフ決定過程（MDP）として、逐次的な計算配分問題に定式化し、さらに、問題全体に課されたトークン制約のもとで各ターンに割り当てるトークン予算を適応的に調整する手法 TAB（Turn-Adaptive Budgets）を提案する。
TAB は Group Relative Policy Optimization（GRPO）で学習し、精度を最大化しつつ、簡単なターンではより少ないトークンを使い、難しく重要な推論ステップにはより多くのトークンを温存することを学ぶ。
数学的推論ベンチマークでの実験により、TAB は精度–トークンのトレードオフでより良い性能を示し、静的および市販の（オフ・ザ・シェルフ）予算ベースラインに対して精度を維持したまま最大 35% のトークン節約を達成する。
本論文はさらに、利用可能な下位質問（sub-questions）の計画を活用して、過去および未来の下位質問にわたって予算を配分する TAB All-SubQ も提案しており、ベースラインに対して最大 40% のトークン節約につながる。

Abstract

LLMの推論性能が頭打ちになる中、推論時の計算効率を改善することは、単純な質問であっても過剰な考え込みや長い思考トレースを抑えるために重要です。長さ正則化、適応的ルーティング、難易度に基づく予算配分などの従来手法は、主にシングルターンの設定に焦点を当てており、多ターン推論に内在する逐次的な依存関係に対処できていません。　本研究では、多ターン推論を逐次的な計算配分問題として定式化し、それを多目的マルコフ決定過程としてモデル化します。提案手法TAB: Turn-Adaptive Budgets（ターン適応型予算）は、Group Relative Policy Optimization（GRPO）によって訓練される予算配分方策であり、問題ごとのトークン上限というグローバルな制約を守りながら、タスク精度を最大化することを学習します。その結果、TABは入力として会話履歴を受け取り、理解しやすいターンにはより小さな予算を適応的に割り当て、重要でより難しい推論ステップに対して適切な数のトークンを温存することを学習します。数学的推論ベンチマークでの実験により、TABは、静的および市販の既製LLMの予算ベースラインと同等の精度を維持しつつ、最大35%のトークンを節約するという、精度とトークンのトレードオフにおいて優れた性能を達成することを示します。さらに、事前にすべての下位質問の計画が利用可能なシステムでは、会話履歴と過去・未来のすべての下位質問に基づいてトークン予算を配分する予算配分方策TAB All-SubQを提案し、ベースラインに対して最大40%のトークンを節約できます。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

エンフォースメント・ギャップ：問題を見つけることが問題だったわけではない理由

Dev.to

デスクトップスクリーンショットツールにAIによる自動レダクションを組み込むまでの道のり

Dev.to

エージェント型AI（Agentic AI） vs 従来の自動化：なぜ現代の企業では別アプローチが必要なのか

Dev.to

すべてのターンが同じくらい難しいわけではない：効率的なマルチターン推論のための適応的な思考予算

要点

Abstract

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

エンフォースメント・ギャップ：問題を見つけることが問題だったわけではない理由

デスクトップスクリーンショットツールにAIによる自動レダクションを組み込むまでの道のり

エージェント型AI（Agentic AI） vs 従来の自動化：なぜ現代の企業では別アプローチが必要なのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

エンフォースメント・ギャップ：問題を見つけることが問題だったわけではない理由

デスクトップスクリーンショットツールにAIによる自動レダクションを組み込むまでの道のり

エージェント型AI（Agentic AI） vs 従来の自動化：なぜ現代の企業では別アプローチが必要なのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに