要約:テスト時のスケーリングは、LLMエージェントの信頼性を向上させる支配的なパラダイムとなっていますが、現在のアプローチは計算を豊富なリソースとして扱い、エージェントが冗長なステップや行き詰まりの軌道でトークン予算とツール予算を使い果たすことを許してしまいます。既存の予算認識型手法は、費用のかかるファインチューニングを必要とするものか、実行中に介入できない大まかな軌道レベルのヒューリスティクスに依存しています。私たちは、Budget-Aware Value Tree(BAVT、予算認識価値木)を提案します。これはトレーニング不要の推論時フレームワークで、複数のホップ推論を、単一のLLMバックボーン内でステップレベルの価値推定に導かれる動的探索木としてモデル化します。もう1つの重要な革新は、残りのリソース比をノード値に対する自然なスケーリング指数として用いる、予算条件付きノード選択機構です。これにより、予算が減少するにつれて、広範な探索から貪欲な活用へと、原理的でパラメータ不要の遷移を提供します。LLMの自己評価におけるよく知られた過信に対抗するため、BAVTは絶対的な状態品質ではなく相対的な進捗を評価する残差値予測器を採用し、無情報または冗長なツール呼び出しを信頼性高く剪定できるようにします。さらに、有限の予算境界の下で、BAVTが確率 1-\epsilon 以上で終端解に到達することを証明する理論的な収束保証を提供します。2つのモデルファミリにまたがる4つのマルチホップQAベンチマークに対する広範な評価は、BAVTが一貫して並列サンプリングのベースラインを上回ることを示しています。特に、厳格な低予算制約の下で、4\times のリソース配分でベースライン性能を上回ることを示しており、知的な予算管理が brute-force な計算スケーリングを根本的に上回ることを確立しています。
費用を抑え、推論を高める: LLMエージェントのための予算意識型価値木探索
arXiv cs.AI / 2026/3/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 予算意識型価値木(BAVT)を提案する。これはトレーニング不要の推論時フレームワークで、単一のLLMバックボーン内で、ステップレベルの価値推定に導かれた動的な探索木としてマルチホップ推論をモデル化し、計算予算を効果的に管理する。




