視覚モダリティを通じた視覚言語モデルのジェイルブレイク手法

arXiv cs.AI / 2026/5/4

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデル（VLM）の視覚モダリティが、安全アラインメントを回避するための未開拓の攻撃面であると主張している。
4つの視覚ジェイルブレイク戦略を提示し、視覚シンボル列として有害な指示を符号化する方法、物体の置換（例：「bomb」→「banana」）を行いつつ置換語で有害な行為を促す方法、有害な文字列を画像内で置き換えるが文脈上の意味は維持する方法、そして禁止概念の推論を必要とする視覚アナロジー・パズルなどを扱っている。
6つの最先端VLMで評価したところ、これらの視覚攻撃が安全アラインメントを突破でき、視覚で伝えられる有害意図にはテキストのみで訓練した安全性が自動的に一般化しない「クロスモダリティのアラインメントギャップ」が示された。
例として、視覚暗号がClaude-Haiku-4.5で40.9%の攻撃成功率を達成し、同等のテキスト暗号の10.7%を大きく上回ることが報告されている。
著者らは、VLMの堅牢なアラインメントには安全な後処理（post-training）で視覚を第一級の対象として扱う必要があると結論づけ、解釈可能性と緩和策の予備結果も示している。

Abstract

視覚言語モデル（VLM）の視覚モダリティは、安全アラインメントを回避するための攻撃対象としては十分に研究されていません。そこで本稿では、視覚コンポーネントを悪用する4つのジェイルブレイク攻撃を提案します。 (1) 有害な指示を、デコード用の凡例（レジェンド）付きの視覚記号列として符号化する、(2) 有害な対象を無害な代替物（例：爆弾→バナナ）に置き換え、その代替語を用いて有害な行動を促す、(3) 画像内の有害なテキスト（例：書籍の表紙）を無害な語に置き換える一方で、視覚的な文脈が元の意味を保持するようにする、そして(4) 解答に禁止された概念の推論が必要となる視覚アナロジー（類比）パズルです。6つの最先端VLMにわたって評価したところ、我々の視覚攻撃は安全アラインメントを回避し、モダリティをまたいだアラインメントのギャップを明らかにしました。すなわち、テキストベースの安全性トレーニングは、有害な意図が視覚によって伝達される場合には自動的に一般化されません。例えば、我々の視覚暗号は、同等のテキスト暗号に対する10.7%に比べ、Claude-Haiku-4.5で攻撃成功率40.9%を達成しています。さらに、攻撃メカニズムの理解を深めるために、解釈可能性と軽減（ミティゲーション）に関する予備的な結果も提示します。これらの知見は、堅牢なVLMアラインメントには、安全性のポストトレーニングにおいて視覚を第一級のターゲットとして扱う必要があることを示しています。