関数ハイジャック攻撃でMCPを突破：関数呼び出しとエージェント型モデルに対する新たな脅威

arXiv cs.CL / 2026/4/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

エージェント型LLMは関数呼び出しにより外部ツールを呼び出して能力を拡張しますが、このインターフェースは従来のプロンプトインジェクションやジェイルブレイク以上に攻撃面を広げます。
本論文は、エージェントのツール選択プロセスを操作して、攻撃者が選んだ特定の関数を強制的に呼び出させる「関数ハイジャック攻撃（FHA）」を提案しています。
既存の攻撃がモデルの意味論的な好みに依存しがちなのに対し、FHAは状況の意味には比較的無関係で、関数集合が異なっても堅牢であるため、幅広い領域に適用可能です。
FHAはユニバーサルな敵対的関数を学習でき、複数の問い合わせやペイロード構成にわたってツール選択を乗っ取れることを示しています。
5つのモデルで実験したところ、BFCLデータセットで70%〜100%の攻撃成功率を達成し、エージェント型システムには強力なガードレールとセキュリティモジュールが急務であることが示唆されます。

要旨: エージェント型AIの成長は、外部関数を呼び出すことでAI搭載システムの能力を拡張するよう設計された、関数呼び出し型の大規模言語モデル（LLM）への注目を大きく集めている。インジェクション攻撃やジェイルブレイキング攻撃は、ユーザープロンプトの操作に対するLLMの脆弱性を示すために、広く検討されてきた。エージェント型モデルの拡張された能力は、その関数呼び出しインターフェースを通じて、さらなる脆弱性をもたらす。近年のLLMセキュリティの研究では、関数呼び出しが悪用される可能性が示されており、データの改ざんや窃取につながり、無限ループのような破壊的挙動を引き起こしたり、ジェイルブレイキング攻撃のスタイルで有害な内容をLLMに生成させたりすることがある。本論文では、攻撃者が選んだ特定の関数の呼び出しを強制するために、エージェント型モデルのツール選択プロセスを操作する、新しい関数ハイジャック攻撃（FHA）を提案する。既存の攻撃が関数呼び出しタスクにおけるモデルの意味的嗜好に焦点を当てているのに対し、本研究はFHAが文脈の意味論に対しては概ね無関係であり、関数集合に対して頑健であることを示す。したがって、FHAは多様な領域に適用可能である。さらに、FHAがユニバーサルな敵対的関数を生成するように学習でき、1つの攻撃対象関数が、複数のクエリやペイロード設定にわたってツール選択を乗っ取れることを実証する。確立済みのBFCLデータセットにおいて、指示型および推論型を含む5種類の異なるモデルで実験を行い、ASRは70%から100%に達した。これらの発見は、エージェント型システムには強固なガードレールとセキュリティモジュールが必要であることをさらに示している。