Agent Capsules：品質でゲートする粒度制御によるマルチエージェントLLMパイプライン最適化

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、Agent Capsulesという適応型の実行ランタイムを提案し、マルチエージェントLLMパイプラインにおけるエージェント群のディスパッチを、経験的な品質制約付きの最適化問題として定式化します。
ランタイムは協調（コーディネーション）のオーバーヘッドを計測し、出力品質をスコアリングしたうえで、合成（compound）実行を使うべきか、品質が下がる場合により細かな（per-agent）ディスパッチへ戻すかを判断します。
制御された否定的結果として、合成呼び出しに単により多くの文脈を注入しても、圧縮がむしろ悪化して品質が改善しないことが示され、品質向上は「合成プロンプトを書き換える」のではなく「実行のエスカレーション・ラダー（標準→2フェーズ→逐次）」で段階的に改善することで達成されます。
実験では、14エージェントの競争インテリジェンス（LangGraph）で、fineモードの入力トークンを51%削減し、compoundモードも42%削減しつつ、品質もわずかに向上しました。
5エージェントのデューデリジェンス（DSPy）でも、未コンパイルのDSPyよりトークン削減を行い、MIPROv2に対してはトークン効率を大きく改善しつつ、LLM判定品質も高める結果が示されています（学習データやパイプライン別の手作り調整なし）。

要旨: N 個のエージェントを持つマルチエージェント・パイプラインは、通常、1 回の実行あたり N 回の LLM 呼び出しを発行します。エージェントをより少ない呼び出しに統合すること（複合実行）はトークン節約を約束しますが、単純に統合するとツールの損失やプロンプト圧縮によって品質が静かに劣化します。本稿では、エンピリカルな品質制約のもとで、マルチエージェント・パイプライン実行を最適化問題として扱う適応的実行ランタイム「Agent Capsules」を提案します。ランタイムは、グループごとの協調オーバーヘッドを計測し、構成（composition）の機会をスコア化し、3 つの複合実行戦略のうちから選択し、すべてのモード切り替えを移動平均（rolling-mean）での出力品質によりゲートします。制御された否定的結果により、複合呼び出しにより多くの文脈を注入しても圧縮が緩和されるのではなく悪化することが確認されます。そのため、枠組みのエスカレーション階段（標準、次に二段階、そして逐次）では、統合プロンプトを書き換えるのではなく、エージェントごとのディスパッチに近づくことで品質を回復します。LLM による品質評価において、コントローラは、（モデル、グループ、モード）の各計測セルすべてで、手で調整したオラクルと一致します。オラクルが指示する場合には複合ルーティングし、品質が下限を満たさない場合にはきめ細かい（fine）モードへ戻しますが、モデルごとの設定は行いません。14 エージェントの競合インテリジェンス・パイプラインに対する、手作りの LangGraph 実装と比較すると、Agent Capsules は fine モードの入力トークンを 51% 少なくし、複合モードの入力トークンを 42% 少なくします。それぞれ品質は +0.020、+0.017 です。5 エージェントのデューデリジェンス・パイプラインに対する DSPy 実装では、枠組みは品質の同等性を保ったまま、未コンパイルの DSPy より 19% 少ないトークンを使用し、MIPROv2 より 68% 少ないトークンを使用しつつ品質は +0.052 です。複合モードが発火する前でさえ、ランタイムは自動的なポリシー解決、キャッシュに整合したプロンプト、トポロジーを考慮した文脈注入によって効率を提供し、学習データやパイプラインごとのエンジニアリングなしに、手調整およびコンパイル時のベースラインの両方に匹敵します。