視覚モダリティを通じた視覚言語モデルのジェイルブレイク手法
arXiv cs.AI / 2026/5/4
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデル(VLM)の視覚モダリティが、安全アラインメントを回避するための未開拓の攻撃面であると主張している。
- 4つの視覚ジェイルブレイク戦略を提示し、視覚シンボル列として有害な指示を符号化する方法、物体の置換(例:「bomb」→「banana」)を行いつつ置換語で有害な行為を促す方法、有害な文字列を画像内で置き換えるが文脈上の意味は維持する方法、そして禁止概念の推論を必要とする視覚アナロジー・パズルなどを扱っている。
- 6つの最先端VLMで評価したところ、これらの視覚攻撃が安全アラインメントを突破でき、視覚で伝えられる有害意図にはテキストのみで訓練した安全性が自動的に一般化しない「クロスモダリティのアラインメントギャップ」が示された。
- 例として、視覚暗号がClaude-Haiku-4.5で40.9%の攻撃成功率を達成し、同等のテキスト暗号の10.7%を大きく上回ることが報告されている。
- 著者らは、VLMの堅牢なアラインメントには安全な後処理(post-training)で視覚を第一級の対象として扱う必要があると結論づけ、解釈可能性と緩和策の予備結果も示している。



