T-MAP：軌跡に着目した進化的探索によるLLMエージェントのレッドチーミング

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来のLLMレッドチーミング手法では、特にModel Context Protocol（MCP）のようなツール・エコシステムにおいて、複数ステップのツール使用中にのみ現れるエージェント固有の脆弱性を見落としていると主張している。
それを踏まえ、T-MAPは、実行の軌跡（trajectory）を用いて敵対的プロンプトや攻撃経路を体系的に生成する、軌跡に着目した進化的探索手法を提案している。
T-MAPは、有害なテキストにとどまらず、実際のツール連携によって有害な目的を達成しながら、安全ガードレールを回避する攻撃を自動生成できる。
複数のMCP環境での実験により、T-MAPはベースラインと比べて攻撃実現率（ARR）を大幅に改善し、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5を含む複数の最先端モデルに対しても有効であることが示されている。
本結果は、自律型LLMエージェントには、ツール実行の軌跡や時間経過に伴うエージェント挙動に結びついたセキュリティ上の弱点が、十分に探索されていないことを示唆している。

Abstract

これまでのレッドチーミングの取り組みは、大規模言語モデル（LLM）から有害なテキスト出力を引き出すことに焦点を当ててきましたが、こうした手法は、特にModel Context Protocol（MCP）のように急速に拡大するエコシステムにおいて、多段階のツール実行を通じて生じるエージェント固有の脆弱性を捉えきれていません。このギャップに対処するために、軌跡（トラジェクトリ）を意識した進化的探索手法であるT-MAPを提案します。本手法は、実行の軌跡を活用して、敵対的プロンプトの発見を導きます。これにより、安全性ガードレールを回避するだけでなく、実際のツール操作を通じて有害な目的を確実に達成する攻撃の自動生成を可能にします。多様なMCP環境に対する実証評価により、T-MAPは攻撃実現率（ARR）においてベースラインを大幅に上回り、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5を含むフロンティアモデルに対しても有効であることが示されました。これにより、自律型LLMエージェントにおける、これまで十分に調査されてこなかった脆弱性が明らかになります。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

T-MAP：軌跡に着目した進化的探索によるLLMエージェントのレッドチーミング

要点

Abstract

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer