要旨: 大規模言語モデル(LLM)によって駆動される自律エージェントは、長期的な推論とツール操作によって複雑なタスクを実行します。このとき、実行効率と推論の頑健性の間に基本的なトレードオフが生じます。能力とコストの異なるモデルは相補的な利点を提供します。低コストのモデルは高速な実行を可能にする一方で、難しい推論区間では苦戦する場合があります。より強力なモデルは高い計算コストを伴うものの、より頑健な推論を提供します。本論文では、エージェント実行中に異なる推論能力を持つモデルを動的に協調させる、自律駆動の協調推論フレームワークであるAgentCollabを提案します。外部のルーティングモジュールに依存する代わりに、このフレームワークでは、現在の推論の軌跡が有意義な進展をしているかどうかを、エージェント自身の自己省察(self-reflection)信号によって判断します。そして必要な場合に限り、より強力な推論ティアへ制御をエスカレーションします。長期的な実行をさらに安定化するために、直近の失敗信号に基づいて追加の推論予算を配分する、難易度に応じた累積エスカレーション戦略も導入します。実験では、このフレームワークを2段階の小型・大型モデル設定として具体化します。多様な多ステップのエージェントベンチマークに対する実験により、AgentCollabがLLMエージェントの精度・効率(accuracy-efficiency)のパレートフロンティアを一貫して改善することを示します。
AgentCollab:効率的なLLMエージェントのための自己評価駆動型コラボレーション・パラダイム
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長期ホライズンのタスクにおいて実行効率と堅牢性のバランスを取るために、推論能力の複数ティアにまたがるLLMエージェントの協調を行う、自己評価駆動型フレームワーク「AgentCollab」を提案する。
- 外部ルーティングの代わりに、AgentCollabはエージェント自身の自己反省(self-reflection)シグナルを用いて、現在の推論経路が有意な進展をもたらしているかを判断し、必要な場合にのみより強力なモデルへエスカレートする。
- 難易度を考慮した累積的なエスカレーション戦略を追加し、直近の失敗シグナルに基づいて割り当てる推論予算を増やすことで、拡張された多段階の対話にわたる性能を安定化させる。
- 小規模/大規模の2段階モデル構成を用いた複数のマルチステップ・エージェントベンチマークに関する実験では、ベースライン手法に比べて精度と効率のトレードオフが改善され、パレートフロンティアを強化することが示される。
