AI Navigate

WebWeaver: ステルスな文脈ベース推論によるLLMマルチエージェントシステムのトポロジ機密性の突破

arXiv cs.AI / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • WebWeaverは、管理エージェントを制御する必要をなくし、任意の単一エージェントだけを侵害することで、完全なLLM-MASトポロジを推定できるフレームワークです。
  • エージェントIDではなくエージェントのコンテキストに依存するため、実世界の防御下でのトポロジ推定を著しくステルス性の高いものにします。
  • この手法は、潜伏的なジャイルブレイクベースの機構と、完全にジャイルブレイク不要なディフュージョン設計を導入し、ディフュージョン中に既知のトポロジを保持するマスキング戦略と、正確性の理論的保証を提供します。
  • 広範な実験により、WebWeaverは最先端のベースラインを大幅に上回り、アクティブな防御下で推論精度を約60%向上させ、オーバーヘッドはごくわずかであることが示されました。

要旨: 通信トポロジーは、LLMベースのマルチエージェントシステム(LLM-MAS)の有用性と安全性において重要な要因であり、その機密性は十分には研究されていない高価値の知的財産(IP)です。

既存のトポロジ推定手法は、管理エージェントの制御やジャイルブレイクを介した直接的な識別クエリなど、現実的でない前提に依存しており、基本的なキーワードベースの防御に容易に対処されてしまいます。その結果、従来の分析はこのような攻撃が現実世界で及ぼす脅威を捉えきれていません。

この現実性の差を埋めるべく、我々は\textit{WebWeaver}を提案します。これは、管理エージェントを制御する代わりに、任意の単一エージェントのみを侵害することで完全なLLM-MASトポロジを推定する攻撃フレームワークです。

従来のアプローチとは異なり、WebWeaverはエージェントIDではなくエージェントのコンテキストのみを利用するため、推定を著しくステルス化できます。

WebWeaverはさらに、ジャイルブレイクをベースとする新たな潜伏機構と、完全にジャイルブレイク不要なディフュージョン設計を導入し、ジャイルブレイクが失敗するケースに対処します。

さらに、ディフュージョンベースの推論における重要な課題の1つに対処するため、拡散中に既知のトポロジを保持するマスキング戦略を提案し、その正確性の理論的保証を提供します。

広範な実験により、WebWeaverは最先端のベースラインを大幅に上回り、アクティブな防御下で推論精度を約60%向上させ、オーバーヘッドはごくわずかであることが示されました。