AI Navigate

ToolFlood: 選択を超えて — 意味的カバーリングによるLLMエージェントからの有効なツールの隠蔽

arXiv cs.CL / 2026/3/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ToolFlood は、ツールを組み込んだ LLM エージェントに対する検索レイヤー攻撃であり、埋め込み空間に戦略的に配置されたメタデータを持つ攻撃者が制御するツールを注入することで、上位k件の検索結果を圧倒します。
  • 二段階の戦略を採用しており、まず LLM を用いて多様な攻撃者ツール名と説明を生成し、次にコサイン距離の閾値以下でターゲットクエリのカバレッジを最大化するようツールを貪欲に選択します。
  • 本研究では ToolBench において、注入率が低い(1%)にもかかわらず最大で 95% の攻撃成功率を報告しており、ツールを組み込んだ LLM の検索段階における重大な脆弱性を示しています。
  • 著者らは、コードを公開する予定であり、再現性の確保と意味的カバー攻撃に対する防御に関するさらなる研究を促進できると述べています。

要旨: 大規模言語モデル(LLM)エージェントは、複雑なタスクに対して外部ツールをますます利用しており、推論のために埋め込みベースの検索を用いて小さな top-k サブセットを選択します。これらのシステムが大規模化するにつれて、この検索段階の堅牢性は十分には検討されていません。従来の研究はツール選択への攻撃を検討してきました。本論文は ToolFlood を紹介します。これは、ツールを強化した LLM エージェントに対する検索層の攻撃です。検索後にどのツールが選ばれるかを変えるのではなく、ToolFlood は埋め込み空間の幾何学を利用して慎重に配置された数個の攻撃者が制御するツールを注入することにより、検索自体を圧倒します。これらのツールは意味的に多くのユーザーのクエリを跨ぎ、top-k の結果を支配し、健全なツールをすべてエージェントの文脈から押し出します。
ToolFlood は二段階の敵対的ツール生成戦略を用います。はじめに対象クエリのサブセットをサンプリングし、LLM を用いて多様なツール名と説明を反復的に生成します。次に、埋め込み空間における残りのクエリのカバレッジを最大化し、コサイン距離の閾値以下でツールを選択する反復的貪欲選択を実行します。すべてのクエリがカバーされるか、予算に達するまで停止します。我々は検索の飽和に関する理論的分析を提供し、標準ベンチマークで ToolFlood が低い注入率(ToolBench で 1%)で最大 95% の攻撃成功率を達成することを示します。コードは以下のリンクで公開されます: https://github.com/as1-prog/ToolFlood