要旨: マルチサーバMCPエージェントは、情報フロー制御の問題を生み出します。つまり、忠実なツール合成は、個別には無害な読み取り/書き込み権限を、境界を越えた資格情報(クレデンシャル)の伝播へと変えてしまうことがあり得ます。これは、必ずしも悪意のあるモデル挙動ではなく、ワークフロートポロジ(処理の流れの構造)に起因する構造的な副作用です。私たちは、知る限り、MCPのマルチサーバ間の信頼境界を越えて、非対抗的(非アドバーサリアル)かつ逐語的(verbatim)な資格情報の伝播を隔離して測定する、最初の制御ベンチマークであるMCPHuntを提案します。これには、次の3つの方法論的貢献があります。 (1) 伝播検出を客観的な文字列一致へと還元する、カナリア(canary)ベースのタント追跡。 (2) 危険だが無害(risky, benign)およびハードネガティブ条件を用いた、環境制御型のカバレッジ設計により、パイプラインの健全性を検証し、資格情報フォーマットの混同要因を制御する。 (3) CRS(カテゴリ別層化)により、タスクが要求する伝播(逐語的転送指示の忠実な実行)と、ポリシーに違反する伝播(秘匿(redact)オプションがあるにもかかわらず資格情報が含まれる)を切り離す。5モデルにまたがる147タスク、9つのメカニズムファミリからなる3,615本のメインベンチマークトレースにおいて、ポリシー違反の伝播率は全モデルで11.5--41.3%に達します。この伝播は経路(pathway)固有で(メカニズム間の範囲が25倍)、ブラウザを介したデータフローに集中しています。ハードネガティブによる制御は、生産環境のフォーマットに適合した資格情報が必要ではないこと、すなわちプロンプト主導の境界を越えたデータフローだけで十分であることの証拠を提供します。3モデルに対するプロンプト緩和(mitigation)研究では、ユーティリティを80.5%維持しながら、ポリシー違反の伝播を最大97%削減できますが、その有効性は指示追従能力に依存して変動します。これは、プロンプトレベルの防御だけでは不十分である可能性を示唆します。コード、トレース、ラベリングのパイプラインはMITおよびCC BY 4.0で公開されます。
MCPHunt:マルチサーバーMCPエージェントにおける越境データ伝播の評価フレームワーク
arXiv cs.AI / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research
要点
- 本論文は、マルチサーバーMCPエージェントがツール合成によってワークフロートポロジに起因して、信頼境界を越えて資格情報(クレデンシャル)を意図せず伝播させてしまう現象を測定するための制御型ベンチマーク「MCPHunt」を提案している。
- MCPHuntは、カナリアベースのタイント追跡と、環境制御されたカバレッジ設計(リスクのある良性ケース、良性ケース、ハードネガティブを含む)を用い、非敵対的な“逐語的”資格情報伝播を客観的な文字列一致で検出する。
- 147タスク・5モデルにまたがる3,615件のトレースの結果として、政策違反となる伝播は11.5–41.3%の範囲で発生し、経路によって大きく異なり、特にブラウザ経由のデータフローに集中している。
- プロンプトによる緩和(プロンプト・ミティゲーション)では、最大97%の違反低減と80.5%のユーティリティ維持を示す一方で、その有効性はモデルの指示追従能力に強く依存する。
- 研究者はコード、トレース、ラベリング用パイプラインを(MITおよびCC BY 4.0で)公開しており、MCPエージェントにおける越境データ伝播リスクの再現可能な評価を可能にしている。




