要旨: 現実世界のLLMアプリケーション、特に自律エージェントにとって、プロンプト注入は深刻なセキュリティリスクをもたらします。多くの防御手段が提案されているにもかかわらず、それらの適応的な攻撃に対する堅牢性は十分に評価されておらず、過剰な安心感を生み出す可能性があります。本研究では、攻撃用LLMを訓練して注入プロンプトを最適化することで、実用的なブラックボックス設定で防御されたLLMをクエリし、その出力を観察する形で、既存のプロンプト注入対策を体系的に評価する、強化学習(RL)ベースのレッドチーミングフレームワーク「PISmith」を提案します。標準のGRPOを、強力な防御を攻撃するには直接適用すると、報酬の極端な希薄化により性能が最適でなくなることが分かりました――生成される多くの注入プロンプトは防御によってブロックされ、方策のエントロピーが効果的な攻撃戦略を見つける前に崩壊します。一方で、稀少な成功は効果的に学習できません。これに対して、探索を持続させ、希少な成功からの学習を増幅するために、適応エントロピー正則化と動的アドバンテージ重み付けを導入します。13 のベンチマークにわたる広範な評価により、最先端のプロンプト注入対策は適応攻撃に対して脆弱なままであることが示されました。我々はまた、静的、探索ベース、RLベースの攻撃カテゴリにわたって7つのベースラインとPISmithを比較し、PISmithが一貫して最高の攻撃成功率を達成することを示しました。さらに、InjecAgent および AgentDojo におけるエージェント的設定でも、オープンソースおよびクローズドソースのLLM(例: GPT-4o-mini および GPT-5-nano)に対して高い性能を発揮します。我々のコードは以下で利用可能です: https://github.com/albert-y1n/PISmith。
返却形式: {"translated": "翻訳されたHTML"}




