要旨: 視覚-言語モデル(VLM)の急速な進化は、人工知能における前例のない能力を触媒してきました。しかし、この継続的なモーダル拡張は、不注意にも、はるかに広範で制約のない敵対的攻撃面を露呈させてしまいました。現在のマルチモーダル・ジャイルブレイク手法は主に、表面的なピクセル摂動やタイポグラフィ(文字組版)攻撃、あるいは有害な画像に焦点を当てていますが、視覚データに固有の複雑な意味構造と関わることには失敗しています。その結果、元の自然画像に存在する膨大な意味ベースの攻撃面が、ほとんど精査されていないままです。こうした深く根ざした意味的脆弱性を明らかにする必要性に駆動され、私たちは
\textbf{MemJack}、
\textbf{MEM}ory-拡張型のマルチエージェント
\textbf{JA}ilbreak 攻撃
\textbf{CK} フレームワークを提案します。この枠組みは、視覚的セマンティクス(意味)を明示的に活用して、自動化されたジャイルブレイク攻撃をオーケストレーションします。MemJack は、協調的なマルチエージェントの連携を用いて、視覚的エンティティを悪意ある意図に動的に対応付けし、多角度の視覚-意味カモフラージュによって敵対的プロンプトを生成し、さらに Iterative Nullspace Projection(INLP)幾何学的フィルタを利用して、早期の潜在空間拒否を回避します。永続的なマルチモーダル経験メモリを通じて成功戦略を蓄積し、転移することで、MemJack は、異なる画像間にわたって高度に首尾一貫した拡張マルチターンのジャイルブレイク攻撃インタラクションを維持し、それにより新規画像に対する攻撃成功率(ASR)を向上させます。改変のない COCO val2017 全画像を対象とした広範な実証評価の結果、MemJack は Qwen3-VL-Plus に対して 71.48
aS R を達成し、さらに拡張された予算(extended budgets)では 90
a% までスケールします。さらに、将来の防御アライメント研究を促進するため、
\textbf{MemJack-Bench} を公開します。これは 113,000 件以上のインタラクティブなマルチモーダル・ジャイルブレイク攻撃軌跡からなる包括的なデータセットであり、本質的に頑健な VLM を開発するための重要な基盤を確立します。
すべての画像は危険な物語を語る:記憶拡張型マルチエージェントによるVLMへのジェイルブレイク攻撃
arXiv cs.AI / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデル(VLM)の能力が拡大することで、表面的な画素/活字への攻撃だけではなく、自然画像に潜む意味的な脆弱性が十分に検討されていないことを指摘している。
- MemJackは、視覚的なエンティティを悪意のある意図に対応付け、複数角度の視覚-意味的カモフラージュを用いて敵対的プロンプトを作成し、潜在空間における拒否(refusal)メカニズムを回避するためにIterative Nullspace Projectionフィルタを適用する、記憶拡張型マルチエージェントのジェイルブレイク枠組みを提案する。
- MemJackは、永続的なマルチモーダル経験メモリに成功した戦略を保存し、別画像間でそれを転送することで、異なる画像にまたがる首尾一貫したマルチターンのジェイルブレイク対話を維持し、新しい画像への汎化性を高める。
- 修正のないCOCO val2017の全画像に対する実験では、Qwen3-VL-Plusに対する攻撃成功率が71.48%で、計算リソースを追加した場合には約90%に到達する。
- 防御研究を支援するため、著者らはより頑健なVLMの研究とアラインメントを目的とした、113,000+件のインタラクティブなマルチモーダル・ジェイルブレイク軌跡からなるデータセット「MemJack-Bench」を公開する予定である。




