【更新】オープンソースの62Kマルチモーダル・プロンプトインジェクション・データセットに、GCGサフィックス、マルチターンのオーケストレーション、間接インジェクション、ツール乱用などが追加(v2 + v3を一晩で追加)

Reddit r/LocalLLaMA / 2026/4/11

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Bordairのオープンソース62Kマルチモーダル・プロンプトインジェクション・データセットが拡張され、47Kサンプルから新しいv2およびv3リリースとして24時間以内に提供され、より広範な敵対的カバレッジが追加されました。
  • v2(14,358サンプル)では、GCGの敵対的サフィックスを追加し、(PyRITやAutoDAN風のラッパーを含む)脱獄用テンプレートの大幅なバリエーション、さらにローカルモデルに合わせてサフィックスを調整するためのnanoGCGジェネレータ・スクリプトが導入されています。
  • この更新により、マルチターン戦略(例:Crescendo、PAIRの洗練、TAPツリーサーチ、Skeleton Key、マルチショット・プロンプト)に加えて、マルチターンの段階的エスカレーションとGCGサフィックスを組み合わせたアンサンブル・サンプルなどを通じて、攻撃オーケストレーションのカバレッジが大幅に増加しています。
  • v3(187サンプル)は、間接インジェクションのシナリオ(RAGポイズニングおよび応答の操作)に焦点を当て、さらにツール/関数呼び出しのインジェクション、構造化データやコードスイッチング攻撃、Unicode/同形異字(ホモグリフ)/QRベースの回避など、より高度な脅威パターンで残されたギャップに対処します。
  • このデータセットはMITライセンスで、主要なテック企業からの早期の関心をすでに集めており、「フロンティア」系のマルチモーダル・モデルに対する評価および堅牢性テストを目的としていることがうかがえます。
Update: the open-source 62K multimodal prompt injection dataset now has GCG suffixes, multi-turn orchestration, indirect injection, tool abuse, and more (v2 + v3 added overnight)

昨日こちらにv1のクロスモーダル・データセットについて投稿しました。皆さんのうちの誰かが、GCGの敵対的サフィックスとマルチターン攻撃のカバーを追加してほしいと提案してくれました。そのフィードバックを受けて、v2とv3を24時間以内に構築してリリースしました。データセットは47Kから62Kサンプルへ増えています。

HuggingFace: https://huggingface.co/datasets/Bordair/bordair-multimodal GitHub: https://github.com/Josh-blythe/bordair-multimodal-v1/ MITライセンス。

また、このリポジトリにはNVIDIA、PayPal、NetApp、AUGMXNTのエンジニアから(GitHubスターをもとに)早期の関心も寄せられており、これは適切な対象に届いている良い兆候です。

昨日からの更新内容:

v2: 14,358サンプル(ご要望の内容) - 162のPyRITジャイルブレイクテンプレート × 50シード。DAN系のバリアント、Plinyモデル固有のジャイルブレイク(Claude、GPT、Gemini、Llama、DeepSeek)、ロールプレイ、権威のなりすましをカバー - 2,400のGCG敵対的サフィックス・サンプル。ローカルモデルに向けて使えるnanoGCGジェネレーターが含まれています:

bash python generate_v2_pyrit.py --gcg-model lmsys/vicuna-7b-v1.5 --gcg-steps 250

ローカルで何を動かしているかに差し替えれば、その特定の脆弱性に合わせてサフィックスが調整されます。

  • 1,656のAutoDAN流暢なラッパー。これは、perplexityフィルタが完全に見逃してしまう、人間が読めるジャイルブレイクです
  • 13のエンコーディング変換(base64、ROT13、リートスピーク、モールス、NATOの音声表記など)× 138シード
  • マルチターン: Crescendo(6ターンのエスカレーション)、PAIR(反復的な改良)、TAP(ツリーサーチ)、Skeleton Key、多数ショット(10/25/50/100ショット)
  • 152のアンサンブル・サンプル(マルチターンの最終ターン+GCGサフィックスの組み合わせ。Andriushchenkoらによる2024年の報告では、フロンティアモデルでほぼ100%のASR)

v3: v1とv2のギャップを埋める187サンプル 間接インジェクション(RAGポイズニング、メール/カレンダー/APIレスポンスの操作)、システムプロンプトの抽出、ツール/関数呼び出しのインジェクション、エージェントのCoT(Chain-of-Thought)操作、構造化データ攻撃(JSON/XML/CSV/YAML)、文中での言語切り替え(コードスイッチング)、ホモグリフ/Unicodeのトリック、QR/バーコードのインジェクション、ASCIIアートのバイパス。

v3のカテゴリは、既存データセットが実世界の攻撃面を過小評価している部分に、特に焦点を当てています。RAGパイプラインを動かしている、またはツールアクセスのあるエージェントを動かしているなら、間接インジェクションとツール呼び出しのサンプルを見る価値があります。

v1は昨日から変更なし: 47,518のクロスモーダル・サンプル テキスト+画像、テキスト+ドキュメント、テキスト+音声、トリプル、クアッド(4種類同時)モーダルの組み合わせにまたがる23,759件の攻撃。23,759件の良性サンプルは、.gitignore設定やハートのバイパス手術のような誤検知をテストするためのエッジケースを含め、モーダルごとに1:1でマッチする形になっています。

クイックスタートは変わっていません:

```python import json from pathlib import Path

all_attacks = [] for version_dir in ["payloads", "payloads_v2", "payloads_v3"]: for cat_dir in Path(version_dir).iterdir(): if cat_dir.is_dir(): for f in sorted(cat_dir.glob("*.json")): all_attacks.extend(json.loads(f.read_text("utf-8")))

benign = [] for f in Path("benign").glob("multimodal_*.json"): benign.extend(json.loads(f.read_text("utf-8")))

expected_detection = true (attack) / false (benign)

```

昨日のフィードバックに感謝します。まさに、オープンソースはこうあるべきです。もし他の攻撃ファミリーや見落としている可能性があるベクターがあれば教えてください。追加します。

submitted by /u/BordairAPI
[link] [comments]