PISmith: プロンプト注入対策のための強化学習ベースのレッドチーミング

arXiv cs.LG / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

PISmithは、実用的なブラックボックス環境下でプロンプト注入対策を体系的に評価するための、攻撃用のLLMを訓練して防御されているLLMに対する注入プロンプトを最適化する、強化学習ベースのレッドチーミングフレームワークを導入する。
著者らは、標準的なGRPOベースの攻撃が報酬のスパース性に悩まされることを示しており、探索を持続させ、希少な成功から学ぶために適応的エントロピー正則化と動的アドバンテージ重み付けを用いてこれに対処している。
13ベンチマークにわたる広範な評価により、最先端のプロンプト注入対策が適応的な攻撃には依然として脆弱であることが示され、PISmithは静的、探索ベース、および強化学習ベースの攻撃戦略の7つのベースラインと比較して、最も高い攻撃成功率を達成した。
PISmithはInjecAgentおよびAgentDojoにおけるエージェント型設定でも、オープンソースおよびクローズドソースのLLM（例: GPT-4o-mini、GPT-5-nano）に対して強い性能を示す。
PISmithのコードは https://github.com/albert-y1n/PISmith に公開されている。

要旨: 現実世界のLLMアプリケーション、特に自律エージェントにとって、プロンプト注入は深刻なセキュリティリスクをもたらします。多くの防御手段が提案されているにもかかわらず、それらの適応的な攻撃に対する堅牢性は十分に評価されておらず、過剰な安心感を生み出す可能性があります。本研究では、攻撃用LLMを訓練して注入プロンプトを最適化することで、実用的なブラックボックス設定で防御されたLLMをクエリし、その出力を観察する形で、既存のプロンプト注入対策を体系的に評価する、強化学習（RL）ベースのレッドチーミングフレームワーク「PISmith」を提案します。標準のGRPOを、強力な防御を攻撃するには直接適用すると、報酬の極端な希薄化により性能が最適でなくなることが分かりました――生成される多くの注入プロンプトは防御によってブロックされ、方策のエントロピーが効果的な攻撃戦略を見つける前に崩壊します。一方で、稀少な成功は効果的に学習できません。これに対して、探索を持続させ、希少な成功からの学習を増幅するために、適応エントロピー正則化と動的アドバンテージ重み付けを導入します。13 のベンチマークにわたる広範な評価により、最先端のプロンプト注入対策は適応攻撃に対して脆弱なままであることが示されました。我々はまた、静的、探索ベース、RLベースの攻撃カテゴリにわたって7つのベースラインとPISmithを比較し、PISmithが一貫して最高の攻撃成功率を達成することを示しました。さらに、InjecAgent および AgentDojo におけるエージェント的設定でも、オープンソースおよびクローズドソースのLLM（例: GPT-4o-mini および GPT-5-nano）に対して高い性能を発揮します。我々のコードは以下で利用可能です: https://github.com/albert-y1n/PISmith。

返却形式: {"translated": "翻訳されたHTML"}

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/19Weeklyインサイトを見る →📅 3/16Dailyインサイトを見る →

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

PISmith: プロンプト注入対策のための強化学習ベースのレッドチーミング

要点

💡 この記事が使われたインサイト

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌