T-MAP:軌跡に着目した進化的探索によるLLMエージェントのレッドチーミング
arXiv cs.AI / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来のLLMレッドチーミング手法では、特にModel Context Protocol(MCP)のようなツール・エコシステムにおいて、複数ステップのツール使用中にのみ現れるエージェント固有の脆弱性を見落としていると主張している。
- それを踏まえ、T-MAPは、実行の軌跡(trajectory)を用いて敵対的プロンプトや攻撃経路を体系的に生成する、軌跡に着目した進化的探索手法を提案している。
- T-MAPは、有害なテキストにとどまらず、実際のツール連携によって有害な目的を達成しながら、安全ガードレールを回避する攻撃を自動生成できる。
- 複数のMCP環境での実験により、T-MAPはベースラインと比べて攻撃実現率(ARR)を大幅に改善し、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5を含む複数の最先端モデルに対しても有効であることが示されている。
- 本結果は、自律型LLMエージェントには、ツール実行の軌跡や時間経過に伴うエージェント挙動に結びついたセキュリティ上の弱点が、十分に探索されていないことを示唆している。



