「1つの摂動、2つの失敗モード」:埋め込みガイド型の活字(タイポグラフィ)擾乱でVLMの安全性を探る

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、画像内に描画されたテキストを操作することで、視覚言語モデル(VLM)の安全性アライメントを回避できる「活字プロンプトインジェクション」を調べています。
  • 4つのVLM、複数のフォントサイズ、さまざまな変換のもとで、著者らはマルチモーダル埋め込み距離が攻撃成功率と強く相関することを見出し、モデルに依存しない解釈可能な指標として提示しています。
  • 埋め込み距離と攻撃成功の関係は、(1) 読み取り可能性(VLMがテキストを解析できるか)と(2) 安全アライメント(従わずに拒否するか)の2つの要因によって媒介されると主張します。
  • 埋め込みを手がかりにした最適化を、置き換え(サロゲート)となる埋め込みモデルで行うことで、読み取り可能性と拒否挙動を同時にストレステストするレッドチーミング手法を提案しています。
  • 複数のVLMと劣化条件での実験では、最適化が読み取り可能性を高めると同時に安全に整合した拒否を低減し、支配的な失敗メカニズムがモデル特性と視覚的な劣化の度合いによって変わることが示されています。

Abstract

タイポグラフィック・プロンプト・インジェクションは、画像内にレンダリングされた文字を読み取るビジョン言語モデル(VLMs)の能力を悪用し、自律エージェントとしてVLMがより強力になるにつれて脅威が増大している。従来の研究は一般に攻撃成功率(ASR)を最大化することに焦点を当てているが、なぜ特定のレンダリングが安全性アラインメントを回避するのか、 emph{なぜ}を説明していない。私たちは2つの貢献を行う。第一に、GPT-4oとClaudeを含む4つのVLM、12種類のフォントサイズ、10種類の変換にまたがる実証的研究により、多モーダル埋め込み距離がASRを強く予測することが明らかになった(r{=}{-}0.71から{-}0.93, p{<}0.01)。これは解釈可能でモデル非依存の代理指標を提供する。埋め込み距離がASRを予測するので、それを減らせば攻撃成功が向上するはずだが、この関係は2つの要因によって媒介される。すなわち、知覚的な可読性(VLMが文字を解析できるかどうか)と、安全性アラインメント(従うことを拒否するかどうか)である。第二に、これをレッドチーミングのツールとして用いる:標的モデルにアクセスすることなく、4つのサロゲート埋め込みモデルに対して、境界付きl_infty摂動の下でCWA-SSAにより、画像テキスト埋め込みの類似度を直接最大化する。この手法により、2つの要因を両方ストレステストできる。GPT-4o、Claude Sonnet 4.5、Mistral-Large-3、Qwen3-VLに対して、5つの劣化設定で実験を行ったところ、最適化によって、可読性の回復と、安全性にアラインメントされた拒否の低減が2つの同時発生効果として確認された。支配的なメカニズムは、モデルの安全フィルタの強度と、視覚的劣化の程度に依存することが分かった。