エージェント間ネットワークにおけるモダリティネイティブ・ルーティング：マルチモーダルA2Aプロトコル拡張

arXiv cs.AI / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エージェント間（A2A）ネットワーク向けのプロトコル/アーキテクチャ拡張であるMMA2Aを提案する。すべてをテキストのボトルネックに集約するのではなく、音声・画像・テキストをそれぞれのネイティブなモダリティに基づいてルーティングする。
CrossModal-CSベンチマークでの実験では、大幅な精度向上が示されており、テキストボトルネック・ベースラインに対してタスク完了率が52%（32%）となる。これは、モダリティネイティブのルーティングが主要な設計レバーであることを示唆する。
その効果は、下流の推論能力に依存しているように見える。推論エージェントをキーワードマッチングに置き換えると精度の差が消失し（36% vs. 36%）、これは二層の要件（プロトコルのルーティング＋十分に能力のある推論）が必要であることを示している。
利得は特に、視覚に依存するタスクで顕著である。具体例として、製品欠陥の報告では+38.5 pp、視覚的トラブルシューティングでは+16.7 ppとなる。
精度の改善には遅延のトレードオフが伴う。MMA2Aはネイティブなマルチモーダル処理により、約1.8×高いレイテンシを要する。

要旨: エージェント間の境界を越えてマルチモーダル信号を保持することは、正確なクロスモーダル推論に必要であるが、それだけでは不十分です。我々は、Agent-to-Agent（A2A）ネットワークにおけるモダリティネイティブなルーティングが、テキストボトルネック基準に比べてタスク精度を20パーセントポイント向上させることを示しますが、その効果は、下流の推論エージェントがネイティブなルーティングによって保持されるより豊かな文脈を活用できる場合に限られます。LLMに支えられた推論をキーワードマッチングに置き換えるアブレーションでは精度差が完全に解消します（36% vs. 36%）。これは、恩恵が実現するための二層の要件、すなわち「プロトコルレベルのルーティング」と「能力のあるエージェントレベルの推論」とを組み合わせる必要性を確立します。
我々は、A2Aの上に構築されたアーキテクチャ層であるMMA2Aを提示します。これは、Agent Cardの能力宣言を検査し、音声・画像・テキスト部分をそれぞれのネイティブなモダリティでルーティングします。CrossModal-CSでは、同一のLLMバックエンド、同一のタスク、ルーティング経路のみが変化する制御された50タスクのベンチマークを用いて、MMA2Aはテキストボトルネック基準の32%に対してタスク完了精度52%を達成します（ $\Delta$ TCAの95%ブートストラップCI: [8, 32] pp; McNemarの正確確率 $p = 0.006$ ）。
精度向上は、視覚依存のタスクに集中しています。製品の欠陥報告は+38.5 pp、視覚的トラブルシューティングは+16.7 pp改善します。この精度向上は、ネイティブなマルチモーダル処理に由来する $1.8\times$ のレイテンシコストを伴います。これらの結果は、ルーティングがマルチエージェントシステムにおける第一級の設計変数であることを示唆します。すなわち、ルーティングが下流の推論に利用可能な情報を決定するためです。