| プロンプトインジェクションを、1つのテキスト欄にまとめて入れるのではなく、複数の入力モダリティに分割した場合に何が起きるのかを調べてきました。短い答えは、チャネルごとの検出が完全に破綻する、ということです。 発想はシンプルです。
各断片は、検出閾値を個別には十分に下回るスコアを出します。DistilBERTの分類器は、各要素をそれぞれ信頼度0.43〜0.53で見ます。単一のチャネルが何も引き起こしません。しかしLLMは、すべてのチャネルを1つのトークンストリームとして処理し、攻撃全体を再構成します。 私はこれらを、3段階の検出パイプライン(正規表現の高速リジェクト、微調整したDistilBERTのONNX INT8、モダリティ固有の前処理)にかけ、通過してしまったものをすべて記録しました。 カバーしたモダリティの組み合わせ
攻撃カテゴリ情報持ち出し(exfiltration)、コンプライアンス強制、コンテキスト切り替え、テンプレートインジェクション、エンコードによる難読化(base64、hex、ROT13、反転テキスト、ユニコードのホモグリフ)、多言語インジェクション、DAN/jailbreak、ロールプレイ操作、権威のなりすまし、デリミタ(区切り)インジェクション。 出典と参考文献
Repogithub.com/Josh-blythe/bordair-multimodal-v1 すべてJSONペイロードで、実行可能なコードは不要です。レッドチームや、マルチモーダルLLMの検出システムを構築・評価している人向けです。 クロスモーダルな防御に取り組んでいる方からの話を聞きたいです。本質的な問いは、おそらく次のどちらかです。分類の前に、抽出したテキストをチャネルをまたいで再構成しますか?それとも、まったく別のアーキテクチャアプローチが必要なのでしょうか? [link] [comments] |
23,759件のクロスモーダル・プロンプトインジェクション・ペイロードをオープンソース化—テキスト、画像、ドキュメント、音声に対する攻撃を分割する
Reddit r/LocalLLaMA / 2026/4/10
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この記事では、プロンプトインジェクションのペイロードを複数モダリティ(テキスト、画像、ドキュメント、音声)に分割することで、チャネルごとの検出メカニズムを回避しつつ、LLMが全入力をまとめて取り込むと攻撃を完全に再構成できる方法を説明している。
- 個々の断片は検出閾値を下回るスコアになる一方で(DistilBERTベースの分類器が各要素を見たときの信頼度が約0.43〜0.53)、トークン列を組み合わせることでインジェクションが機能することが報告されている。
- 著者は、多様なモダリティの組み合わせと難読化手法(例:base64/hex/ROT13、反転テキスト、隠れレイヤー、ステガノグラフィー)にまたがる23,759件のクロスモーダル・プロンプトインジェクション・ペイロードを生成し、オープンソース化したと主張している。
- 3段階の検出パイプライン(正規表現による高速リジェクト、微調整したDistilBERTのONNX INT8、モダリティ固有の前処理)を用いて、どこをすり抜けたかをテストし、その結果を記録している。
- ペイロードは、データの流出、コンプライアンスの強制、コンテキスト切り替え、ジェイルブレイク/DANスタイルのふるまい、区切り文字や権威の操作など、複数の攻撃目標を対象としている。




