要旨: 様々な領域でLLMベースのエージェントが広く活用されるにつれ、その複雑性が新たなセキュリティ脅威をもたらしています。既存のレッドチーム手法は主にユーザープロンプトの修正に依存していますが、これは新しいデータへの適応力に欠け、エージェントの性能に影響を与えうるという問題があります。そこで本論文では、ユーザープロンプトの修正を完全に回避するJailAgentフレームワークを提案します。具体的には、3つの主要段階である「Trigger Extraction(トリガー抽出)」「Reasoning Hijacking(推論の乗っ取り)」「Constraint Tightening(制約の強化)」を通じて、エージェントの推論の軌跡とメモリ検索を暗黙的に操作します。精密なトリガーの特定、リアルタイムの適応メカニズム、最適化された目的関数により、JailAgentはクロスモデルおよびクロスシナリオ環境において優れた性能を示します。
プロンプトに固執しない:レッドチーミング用LLMエージェントにおける推論ハイジャックと制約の締め付け
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、プロンプトに焦点を当てたレッドチーミング手法は、LLMエージェントに対して脆弱であると主張している。これは、ユーザープロンプトを改変することに依存しているためであり、新しいデータに適応できないうえ、エージェントの性能を低下させ得る。
- ユーザープロンプトを変更せずに、代わりに推論の軌跡とメモリの検索を操作することでエージェントを狙うレッドチーミングの枠組み「JailAgent」を提案する。
- JailAgentは3つの段階、すなわち「トリガ抽出」「推論ハイジャック」「制約締め付け」を中核として構成されており、適応的でリアルタイムな仕組みにより、エージェントを不安全または誤った振る舞いへ誘導する。
- 本手法は、異なるモデルファミリやシナリオにわたって強い結果を達成したと報告されており、単一のアーキテクチャや環境を超えた頑健性が示唆される。
- 全体として、この研究は、エージェントのセキュリティ評価をプロンプト編集から、内部の推論および検索経路のより深い制御へと組み替える。




