要旨: 推論時の計算量スケーリングは、大規模言語モデル(LLM)エージェントの信頼性を改善するための強力な手法として登場しているが、既存の手法は一様に計算資源を適用している。すなわち、難易度にかかわらず、あらゆる意思決定ステップが同じ予算を受け取る。そこで本研究では、TrACE(Trajectorical Adaptive Compute via agrEement)を提案する。これは、ロールアウト間の行動の合意度を測定することで、エージェントの各時刻(タイムステップ)に対してLLM呼び出しを適応的に割り当てる、学習不要のコントローラである。各ステップにおいてTrACEは、候補となる次アクションを少数サンプルし、モデルが同一のアクションへどれほど一貫してコミットするかを測定する。高い合意度は意思決定が容易であることを示すため、コントローラは即座にコミットする。低い合意度は不確実性を示すため、コントローラは設定可能な上限まで追加のロールアウトをサンプルし、その多数決のアクションにコミットする。学習済みの構成要素はなく、外部検証器もなく、人間によるラベルも不要である。CPU上で動作するQwen 2.5 3B Instructモデルを用い、TrACEを貪欲デコーディングおよび固定予算の自己整合性(SC-4, SC-8)と2つのベンチマークで比較評価する。ベンチマークは、単一ステップ推論(GSM8K, n=50)と、多ステップの家庭内ナビゲーション(MiniHouse, n=30)を含む。TrACE-4はSC-4と同等の精度を達成しつつ、GSM8KでLLM呼び出しを33%削減し、MiniHouseで39%削減する。TrACE-8はSC-8と同等の精度を達成しつつ、GSM8Kで呼び出しを55%削減し、MiniHouseで65%削減する。さらに、ロールアウト間の合意度がステップ単位の成功の信頼できる指標であることを示し、モデル自身の出力の一貫性が難易度情報を符号化しており、学習なしでそれを活用できるという中核仮説を検証する。TrACEは、LLMエージェント向けの、学習不要でステップごとの適応計算を行う最初のコントローラであり、多ステップの逐次意思決定タスクに対して評価される。
考えすぎないで:LLMエージェントのための自由な適応計算シグナルとしてのロールアウト間行動合意(Inter-Rollout Action Agreement)
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 提案手法TrACEは、推論時の計算量を毎ステップの難易度に応じて適応配分する、学習不要のコントローラであり、候補次状態(次アクション)のロールアウト間での行動一致度を手がかりにします。
- 各ステップで少数の候補アクションをサンプリングし、一致(高いagreement)が得られれば即決し、不一致(低いagreement)なら上限まで追加ロールアウトして多数決で確定します。
- 学習コンポーネント、外部検証器、人手ラベルを使わずに、モデル自身の出力一貫性がステップの成功可否や難易度情報をエンコードしているという仮説を利用する点が特徴です。
- Qwen 2.5 3B Instruct(CPU)での評価では、GSM8KとMiniHouseの両方で、自己一貫性(self-consistency)の固定予算方式と同等または近い精度を、LLM呼び出し回数を大幅に削減しながら達成しました。
- 生成AIエージェントの「ステップごとの適応計算量制御」を、学習なしで多ステップ逐次決定タスクまで評価した最初期の方向性として位置づけられています。



