「1つの摂動、2つの失敗モード」：埋め込みガイド型の活字（タイポグラフィ）擾乱でVLMの安全性を探る

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、画像内に描画されたテキストを操作することで、視覚言語モデル（VLM）の安全性アライメントを回避できる「活字プロンプトインジェクション」を調べています。
4つのVLM、複数のフォントサイズ、さまざまな変換のもとで、著者らはマルチモーダル埋め込み距離が攻撃成功率と強く相関することを見出し、モデルに依存しない解釈可能な指標として提示しています。
埋め込み距離と攻撃成功の関係は、(1) 読み取り可能性（VLMがテキストを解析できるか）と(2) 安全アライメント（従わずに拒否するか）の2つの要因によって媒介されると主張します。
埋め込みを手がかりにした最適化を、置き換え（サロゲート）となる埋め込みモデルで行うことで、読み取り可能性と拒否挙動を同時にストレステストするレッドチーミング手法を提案しています。
複数のVLMと劣化条件での実験では、最適化が読み取り可能性を高めると同時に安全に整合した拒否を低減し、支配的な失敗メカニズムがモデル特性と視覚的な劣化の度合いによって変わることが示されています。

Abstract

タイポグラフィック・プロンプト・インジェクションは、画像内にレンダリングされた文字を読み取るビジョン言語モデル（VLMs）の能力を悪用し、自律エージェントとしてVLMがより強力になるにつれて脅威が増大している。従来の研究は一般に攻撃成功率（ASR）を最大化することに焦点を当てているが、なぜ特定のレンダリングが安全性アラインメントを回避するのか、 emph{なぜ}を説明していない。私たちは2つの貢献を行う。第一に、GPT-4oとClaudeを含む4つのVLM、12種類のフォントサイズ、10種類の変換にまたがる実証的研究により、多モーダル埋め込み距離がASRを強く予測することが明らかになった（

r{=}{-}0.71

から

{-}0.93

p{<}0.01

）。これは解釈可能でモデル非依存の代理指標を提供する。埋め込み距離がASRを予測するので、それを減らせば攻撃成功が向上するはずだが、この関係は2つの要因によって媒介される。すなわち、知覚的な可読性（VLMが文字を解析できるかどうか）と、安全性アラインメント（従うことを拒否するかどうか）である。第二に、これをレッドチーミングのツールとして用いる：標的モデルにアクセスすることなく、4つのサロゲート埋め込みモデルに対して、境界付き

l_infty

摂動の下でCWA-SSAにより、画像テキスト埋め込みの類似度を直接最大化する。この手法により、2つの要因を両方ストレステストできる。GPT-4o、Claude Sonnet 4.5、Mistral-Large-3、Qwen3-VLに対して、5つの劣化設定で実験を行ったところ、最適化によって、可読性の回復と、安全性にアラインメントされた拒否の低減が2つの同時発生効果として確認された。支配的なメカニズムは、モデルの安全フィルタの強度と、視覚的劣化の程度に依存することが分かった。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/29Dailyインサイトを見る →

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

Tech.eu

「1つの摂動、2つの失敗モード」：埋め込みガイド型の活字（タイポグラフィ）擾乱でVLMの安全性を探る

要点

Abstract

💡 この記事が使われたインサイト

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力