プランナーこそ重要!長期計画のための効率的で不均衡なマルチエージェント協調フレームワーク

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、長期的な自律実行をLMベースのマルチエージェントで実現するために、役割を「プランナー(高レベルの意思決定)」「アクター(タスク実行)」「メモリマネージャ(文脈推論)」の3つに分解する枠組みを提案する。
  • 著者らの計算資源配分(compute-allocation)分析の重要な結果として、タスク性能への影響は計画(planning)が支配的であり、実行(execution)とメモリ管理(memory management)は競争力のある結果を出すのに必要な計算量とモデル容量が大幅に少なくて済むことが示された。
  • さらに、VLM-as-judgeによる軌道レベル報酬(trajectory-level rewards)でプランナーのみを最適化する、プランナー中心の強化学習手法を提案し、他のコンポーネント(アクターやメモリ)は凍結する。
  • ウェブナビゲーション、OS制御、ツール利用といったベンチマークに関する実験で、学習と計算資源を高レベル計画に集中することで、長期ホライズンのエージェント自動化における頑健性と計算効率が向上することが確認された。
  • 研究のコードは公開されており、再現や発展的な検証を支える。

Abstract

言語モデル(LM)ベースのエージェントは、自然言語による指示から複雑なタスクを自動化する能力において有望な成果を示している一方で、長期的な計画と推論では依然として苦戦しています。これに対処するために、オートメーションを3つの役割に分解する強化されたマルチエージェントフレームワークを提案します。すなわち、高レベルの意思決定を行うプランナー、タスクを実行するアクター、文脈に基づく推論のためのメモリマネージャです。このモジュール分解は既存の設計パターンと整合していますが、私たちの主要な貢献は、計算資源の割り当てを体系的に分析することにあります。その結果、計画がタスク性能を左右する支配的な要因であることが明らかになります。実行およびメモリ管理は、競争力のある結果を得るのに、計算量やモデル容量を大幅に少なくする必要があります。これらの知見に基づき、プランナー中心の強化学習アプローチを導入します。これは、VLM-as-judgeによる軌跡(トラジェクトリ)レベルの報酬を用いてプランナーのみを最適化し、他の構成要素は固定したままにします。ウェブナビゲーション、OS制御、ツール利用にまたがるベンチマークでの大規模な実験により、高レベル計画に対してモデル容量と学習を集中させることで、長期的なエージェント自動化において堅牢で計算効率の高い改善が得られることが示されます。私たちのコードは公開されています。