Tool Attention Is All You Need:動的ツールゲーティングとレイジーなスキーマ読み込みで、スケーラブルなエージェント型ワークフローにおけるMCP/Tools Taxを排除する

arXiv cs.AI / 2026/4/25

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MCP型の統合が「MCP/Tools Tax」と呼ばれる隠れた負荷を生み、一般的なマルチサーバ環境のエージェント運用では1ターンあたり約1万〜6万トークンのオーバーヘッドが発生し得ると主張しています。
  • 「Tool Attention」は、意図に基づく類似度(ISOスコア)によるゲーティング、状態を考慮した前提条件とアクセススコープの強制、そして2段階のレイジーなスキーマ読み込みを組み合わせたミドルウェア手法です。
  • レイジーなローダーは、コンテキスト内にはコンパクトなスキーマ要約のみを保持し、ゲーティングを通過した上位k個のツールに対してのみ完全なJSONスキーマを割り当てます。
  • シミュレーション(120ツール・6サーバのベンチマーク)では、監査済みの実MCP運用データに合わせてトークン数を較正した結果、Tool Attentionにより1ターンあたりのツール関連トークンが95.0%削減(47.3k → 2.4k)され、実効的なコンテキスト利用率が24%から91%へ向上しました。
  • タスク成功率、レイテンシ、コスト、推論品質のエンドツーエンド改善は、ライブのLLMエージェント上での実測ではなく、測定したトークン数に基づく投影として提示されており、コードはGitHubで公開されています。

要旨: モデルコンテキストプロトコル(MCP)は、大規模言語モデル(LLM)エージェントを外部ツールに接続するための一般的なインターフェースとなっていますが、無状態で即時のスキーマ注入に依存しているため、実践者が「MCP Tax(MCP税)」または「Tools Tax(ツール税)」として報告している、ターンごとの見えないオーバーヘッドが発生します。それは、典型的な複数サーバー構成において、おおよそ10k〜60kトークンに相当します。このペイロードはキー・バリューキャッシュを膨張させ、文脈利用が、公開されている破綻点(70%付近)へ近づくにつれて推論の劣化にも結び付き、トークン予算を反復的な運用コストに変えてしまいます。私たちは、ツールに対するゲート付き注意(gated attention)として「Attention Is All You Need(注意のみで十分)」という自己注意のパラダイムを一般化するミドルウェア層の仕組み「Tool Attention(ツール注意)」を提案します。Tool Attention は、(i) 文埋め込みから算出する Intent Schema Overlap(ISO)スコア、(ii) 前提条件とアクセススコープを強制する状態を考慮したゲーティング関数、(iii) 文脈内にコンパクトな要約プールを保持しつつ、上位kのゲートされたツールに対してのみ完全なJSONスキーマを促進する二相のレイジースキーマローダ(遅延スキーマ読み込み)を組み合わせます。私たちは、6サーバーのベンチマークで120ツールをシミュレーションし、各サーバーのトークン数は、実際のMCP展開に関する公開された監査に合わせて調整しました。このシミュレーションでは、Tool Attention は計測されたターンごとのツール用トークンを直接 95.0% 削減します(47.3k → 2.4k)。さらに、有効な文脈利用(トークン比率の量)を 24% から 91% へ引き上げます。タスク成功率、レイテンシ、コスト、推論品質についてのエンドツーエンドの数値は、測定したトークン数と公開された展開テレメトリを組み合わせて導出した予測として報告されています。これらはライブのLLMエージェント上で測定したものではなく、予測値であることを明示的に各所で示しています。まとめると、結果はシンプルな主張を支持します。すなわち、スケーラブルな「遺伝的(gentic)」システムに対する拘束条件は、生の文脈長ではなく、プロトコルレベルの効率である、という点です。本研究のコードは https://github.com/asadani/tool-attention で公開されています