AI Navigate

PISmith: プロンプト注入対策のための強化学習ベースのレッドチーミング

arXiv cs.LG / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PISmithは、実用的なブラックボックス環境下でプロンプト注入対策を体系的に評価するための、攻撃用のLLMを訓練して防御されているLLMに対する注入プロンプトを最適化する、強化学習ベースのレッドチーミングフレームワークを導入する。
  • 著者らは、標準的なGRPOベースの攻撃が報酬のスパース性に悩まされることを示しており、探索を持続させ、希少な成功から学ぶために適応的エントロピー正則化と動的アドバンテージ重み付けを用いてこれに対処している。
  • 13ベンチマークにわたる広範な評価により、最先端のプロンプト注入対策が適応的な攻撃には依然として脆弱であることが示され、PISmithは静的、探索ベース、および強化学習ベースの攻撃戦略の7つのベースラインと比較して、最も高い攻撃成功率を達成した。
  • PISmithはInjecAgentおよびAgentDojoにおけるエージェント型設定でも、オープンソースおよびクローズドソースのLLM(例: GPT-4o-mini、GPT-5-nano)に対して強い性能を示す。
  • PISmithのコードは https://github.com/albert-y1n/PISmith に公開されている。

要旨: 現実世界のLLMアプリケーション、特に自律エージェントにとって、プロンプト注入は深刻なセキュリティリスクをもたらします。多くの防御手段が提案されているにもかかわらず、それらの適応的な攻撃に対する堅牢性は十分に評価されておらず、過剰な安心感を生み出す可能性があります。本研究では、攻撃用LLMを訓練して注入プロンプトを最適化することで、実用的なブラックボックス設定で防御されたLLMをクエリし、その出力を観察する形で、既存のプロンプト注入対策を体系的に評価する、強化学習(RL)ベースのレッドチーミングフレームワーク「PISmith」を提案します。標準のGRPOを、強力な防御を攻撃するには直接適用すると、報酬の極端な希薄化により性能が最適でなくなることが分かりました――生成される多くの注入プロンプトは防御によってブロックされ、方策のエントロピーが効果的な攻撃戦略を見つける前に崩壊します。一方で、稀少な成功は効果的に学習できません。これに対して、探索を持続させ、希少な成功からの学習を増幅するために、適応エントロピー正則化と動的アドバンテージ重み付けを導入します。13 のベンチマークにわたる広範な評価により、最先端のプロンプト注入対策は適応攻撃に対して脆弱なままであることが示されました。我々はまた、静的、探索ベース、RLベースの攻撃カテゴリにわたって7つのベースラインとPISmithを比較し、PISmithが一貫して最高の攻撃成功率を達成することを示しました。さらに、InjecAgent および AgentDojo におけるエージェント的設定でも、オープンソースおよびクローズドソースのLLM(例: GPT-4o-mini および GPT-5-nano)に対して高い性能を発揮します。我々のコードは以下で利用可能です: https://github.com/albert-y1n/PISmith。

返却形式: {"translated": "翻訳されたHTML"}