T-MAP:軌跡に着目した進化的探索によるLLMエージェントのレッドチーミング

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来のLLMレッドチーミング手法では、特にModel Context Protocol(MCP)のようなツール・エコシステムにおいて、複数ステップのツール使用中にのみ現れるエージェント固有の脆弱性を見落としていると主張している。
  • それを踏まえ、T-MAPは、実行の軌跡(trajectory)を用いて敵対的プロンプトや攻撃経路を体系的に生成する、軌跡に着目した進化的探索手法を提案している。
  • T-MAPは、有害なテキストにとどまらず、実際のツール連携によって有害な目的を達成しながら、安全ガードレールを回避する攻撃を自動生成できる。
  • 複数のMCP環境での実験により、T-MAPはベースラインと比べて攻撃実現率(ARR)を大幅に改善し、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5を含む複数の最先端モデルに対しても有効であることが示されている。
  • 本結果は、自律型LLMエージェントには、ツール実行の軌跡や時間経過に伴うエージェント挙動に結びついたセキュリティ上の弱点が、十分に探索されていないことを示唆している。

Abstract

これまでのレッドチーミングの取り組みは、大規模言語モデル(LLM)から有害なテキスト出力を引き出すことに焦点を当ててきましたが、こうした手法は、特にModel Context Protocol(MCP)のように急速に拡大するエコシステムにおいて、多段階のツール実行を通じて生じるエージェント固有の脆弱性を捉えきれていません。このギャップに対処するために、軌跡(トラジェクトリ)を意識した進化的探索手法であるT-MAPを提案します。本手法は、実行の軌跡を活用して、敵対的プロンプトの発見を導きます。これにより、安全性ガードレールを回避するだけでなく、実際のツール操作を通じて有害な目的を確実に達成する攻撃の自動生成を可能にします。多様なMCP環境に対する実証評価により、T-MAPは攻撃実現率(ARR)においてベースラインを大幅に上回り、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5を含むフロンティアモデルに対しても有効であることが示されました。これにより、自律型LLMエージェントにおける、これまで十分に調査されてこなかった脆弱性が明らかになります。