ピクセルの間を読む:テキスト—画像埋め込みのアライメントを、視覚言語モデルに対する組版(タイポグラフィ)型攻撃の成功に結び付ける
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、敵対的なテキストを画像としてレンダリングすることで、視覚言語モデルに対する組版(タイポグラフィ)型プロンプトインジェクション攻撃を分析し、自律/エージェント型システムで用いられるVLMを標的にする。
- 4つのVLM(GPT-4o、Claude Sonnet 4.5、Mistral-Large-3、Qwen3-VL-4B)と1,000件のSALAD-Benchプロンプトにわたる実験により、フォントサイズが攻撃成功率に強く影響し、中間レンジのフォントが最も良好である一方、6pxはほぼゼロに近いことが示される。
- 攻撃の有効性はVLMとモダリティに依存する:GPT-4oとClaudeではテキスト攻撃が画像攻撃より優れるが、Qwen3-VLとMistralではモダリティ間で成功率がより似通う。
- 本研究では、多モーダル埋め込みモデル(JinaCLIP、Qwen3-VL-Embedding)によって計算されるテキスト—画像埋め込み距離(embedding distance)とASRの間に強い負の相関があることを見出し、成功がアライメントの品質に結び付いていることを示す。
- また、重度の視覚劣化は埋め込み距離を増大させ、ASRを大幅に低下させることを観測する。さらに回転はモデルごとに非対称に影響し、防御は「一律のルール」を用いるのではなく、バックボーン固有の頑健性を考慮する必要があることを示唆している。




