ピクセルの間を読む：テキスト—画像埋め込みのアライメントを、視覚言語モデルに対する組版（タイポグラフィ）型攻撃の成功に結び付ける

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、敵対的なテキストを画像としてレンダリングすることで、視覚言語モデルに対する組版（タイポグラフィ）型プロンプトインジェクション攻撃を分析し、自律／エージェント型システムで用いられるVLMを標的にする。
4つのVLM（GPT-4o、Claude Sonnet 4.5、Mistral-Large-3、Qwen3-VL-4B）と1,000件のSALAD-Benchプロンプトにわたる実験により、フォントサイズが攻撃成功率に強く影響し、中間レンジのフォントが最も良好である一方、6pxはほぼゼロに近いことが示される。
攻撃の有効性はVLMとモダリティに依存する：GPT-4oとClaudeではテキスト攻撃が画像攻撃より優れるが、Qwen3-VLとMistralではモダリティ間で成功率がより似通う。
本研究では、多モーダル埋め込みモデル（JinaCLIP、Qwen3-VL-Embedding）によって計算されるテキスト—画像埋め込み距離（embedding distance）とASRの間に強い負の相関があることを見出し、成功がアライメントの品質に結び付いていることを示す。
また、重度の視覚劣化は埋め込み距離を増大させ、ASRを大幅に低下させることを観測する。さらに回転はモデルごとに非対称に影響し、防御は「一律のルール」を用いるのではなく、バックボーン固有の頑健性を考慮する必要があることを示唆している。