プロンプトに固執しない：レッドチーミング用LLMエージェントにおける推論ハイジャックと制約の締め付け

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、プロンプトに焦点を当てたレッドチーミング手法は、LLMエージェントに対して脆弱であると主張している。これは、ユーザープロンプトを改変することに依存しているためであり、新しいデータに適応できないうえ、エージェントの性能を低下させ得る。
ユーザープロンプトを変更せずに、代わりに推論の軌跡とメモリの検索を操作することでエージェントを狙うレッドチーミングの枠組み「JailAgent」を提案する。
JailAgentは3つの段階、すなわち「トリガ抽出」「推論ハイジャック」「制約締め付け」を中核として構成されており、適応的でリアルタイムな仕組みにより、エージェントを不安全または誤った振る舞いへ誘導する。
本手法は、異なるモデルファミリやシナリオにわたって強い結果を達成したと報告されており、単一のアーキテクチャや環境を超えた頑健性が示唆される。
全体として、この研究は、エージェントのセキュリティ評価をプロンプト編集から、内部の推論および検索経路のより深い制御へと組み替える。

要旨: 様々な領域でLLMベースのエージェントが広く活用されるにつれ、その複雑性が新たなセキュリティ脅威をもたらしています。既存のレッドチーム手法は主にユーザープロンプトの修正に依存していますが、これは新しいデータへの適応力に欠け、エージェントの性能に影響を与えうるという問題があります。そこで本論文では、ユーザープロンプトの修正を完全に回避するJailAgentフレームワークを提案します。具体的には、3つの主要段階である「Trigger Extraction（トリガー抽出）」「Reasoning Hijacking（推論の乗っ取り）」「Constraint Tightening（制約の強化）」を通じて、エージェントの推論の軌跡とメモリ検索を暗黙的に操作します。精密なトリガーの特定、リアルタイムの適応メカニズム、最適化された目的関数により、JailAgentはクロスモデルおよびクロスシナリオ環境において優れた性能を示します。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

プロンプトに固執しない：レッドチーミング用LLMエージェントにおける推論ハイジャックと制約の締め付け

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化