小型モデルをマスターオーケストレーターに：並列サブタスク分解で統一エージェント—ツール・オーケストレーションを学習する

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、静的なワークフローや逐次的なスケジューリングに依存し、ツール／エージェント間の異なるインターフェースにより拡張性が損なわれやすい既存のマルチエージェント・オーケストレーション手法の限界を扱います。
「Agent-as-Tool」を提案し、プロトコル正規化と明示的な状態フィードバックによって、エージェントとツールを標準化された学習可能なアクション空間の要素として扱う統一的な並列オーケストレーション枠組みを示します。
このパラダイムに基づき、ParaManagerという軽量オーケストレーターを学習し、計画とサブタスク解決を分離し、状態に応じた並列分解、委任、非同期実行を可能にします。
学習では2段階のパイプラインを用い、回復メカニズム付きの教師あり微調整（SFT）に加えて、強化学習でタスク成功、プロトコル順守、多様性、推論効率の最適なバランスを目指します。
実験では、ParaManagerが複数ベンチマークで高い性能を示し、未見のモデル群に対しても頑健に一般化できることが示されます。

Abstract

マルチエージェントシステム（MAS）は、多様なエージェントと外部ツールを調整することで複雑な問題に取り組む際の明確な利点を示します。しかし、既存のオーケストレーション手法の多くは静的なワークフロー、または直列のエージェントスケジューリングに依存しており、さらにツールとエージェント間の異種なインターフェースプロトコルによって制約されています。これにより、システムの複雑性が高まり、拡張性が低下します。これらの問題を軽減するために、我々はAgent-as-Toolを提案します。これは、エージェントとツールの両方を、プロトコル正規化と明示的な状態フィードバックを備えた、標準化され学習可能なアクション空間として抽象化する統一された並列オーケストレーションのパラダイムです。このパラダイムに基づき、軽量なオーケストレータであるParaManagerを訓練します。ParaManagerは、計画上の意思決定をサブタスクの解決から切り離し、状態を意識した並列サブタスク分解、委任、および非同期実行を可能にします。訓練のために、我々は二段階のParaManager訓練パイプラインを採用します。これは、回復メカニズムを備えた教師あり微調整（SFT）軌跡を組み込むことで頑健性を高め、さらに強化学習（RL）を適用して、タスク成功、プロトコル遵守、多様性、推論効率の間の最適なバランスを達成します。実験の結果、ParaManagerは複数のベンチマークにわたって強い性能を示し、未見のモデルプールに対しても頑健な汎化特性を示すことが確認されました。