マルチターンのプロンプトインジェクション攻撃のベンチマークを作った──多くの防御策は想定していない

Reddit r/artificial / 2026/6/20

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、多くのプロンプトインジェクションのベンチマークがワンショット型である一方、実際の攻撃は複数ターンにわたって影響が段階的に強まることが多いと指摘しています。
  • 著者は、マルチターンでのエスカレーションとクロスソースの権限移譲に焦点を当てたベンチマークを構築し、より現実に近い形で防御の突破を評価できるようにしました。
  • 認識されている重要な課題は、時間の経過とともに異なる情報源間で信頼を正しく帰属・移転させることが難しい点で、多くの防御策がそこに対処できていない可能性があります。
  • ベンチマーク、プロキシ、ライブのレッドチーム環境をオープンソース化し、他者が結果を再現して検証できるようにしています。
  • 著者はコミュニティに対してシステムの突破を試し、見つかったバイパスをベンチマークへ追加することを歓迎しています。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →