SkillGraph:マルチモーダルなグラフトポロジーに基づく自己進化型マルチエージェント協調

arXiv cs.AI / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、視覚マルチエージェント・システム(VMAS)にビジョン・ランゲージモデルを拡張する際、推論前に固定される通信トポロジーと、デプロイ中に適応しないエージェント推論能力がボトルネックになっていると指摘しています。
  • 提案するSkillGraphは、エージェントのスキルと協調グラフのトポロジーの両方を、クエリやコンテンツに応じて進化させる共同フレームワークです。
  • SkillGraphはマルチモーダル・グラフ・トランスフォーマ(MMGT)を用い、視覚トークン・指示意味・アクティブなスキル埋め込みをエンコードし、現在のクエリに条件付けされたコラボレーション・グラフを予測します。
  • さらにSkill Designerが失敗事例から推論ヒューリスティックを蒸留・改良して、自己進化型のマルチモーダル・スキルバンクを構築し、更新されたスキル埋め込みをMMGTへフィードバックすることで、トポロジーと能力を同時に適応させます。
  • 実験では4つのベンチマーク、複数のMAS構造、複数のベースモデルにわたり一貫した改善が示され、コードもGitHubで公開されています。

概要: 視覚言語モデルをビジュアル・マルチエージェント・システム(VMAS)へスケールすることは、2つの結びついた問題によって妨げられます。第一に、推論の前に通信トポロジーが固定されてしまい、それが視覚コンテンツやクエリ文脈に対して盲目となります。第二に、エージェントの推論能力が、展開中には固定のままです。これらの問題は互いに強め合っています。すなわち、剛直なトポロジーはより豊かなエージェントの専門性を活用できず、一方で固定されたエージェントは、特定のクエリに向けて特化する動機を持ちません。私たちはこれに対し、エージェントの専門性と通信トポロジーの両方を進化させる共同フレームワークであるSkillGraphを提案します。この枠組みの中で、マルチモーダル・グラフ・トランスフォーマ(MMGT)が視覚トークン、指示の意味論、アクティブなスキル埋め込みをエンコードし、クエリに条件付けされた協調グラフを予測します。これにより、手作りのルーティングを、動的でコンテンツを意識した情報フローに置き換えます。さらに、この仕組みを補完するSkill Designerは、失敗事例から推論ヒューリスティックを蒸留し洗練することで、自己進化するマルチモーダルなSkill Bankを構築します。重要なのは、更新されたスキル埋め込みがMMGTにフィードバックされ、能力の成長とともにトポロジーが適応できるようになる点です。実験の結果、SkillGraphは4つのベンチマーク、5つの一般的なMAS構造、および4つの基盤モデルにわたって一貫した改善を達成することが示されました。コードは https://github.com/niez233/skillgraph で公開されています。