要旨: 現代のテキストから画像(T2I)モデルは、判読可能な段落長のテキストを描画できるようになり、根本的に新しい種類の悪用を可能にしています。本研究では、敵対者がT2Iシステムを強要して、視覚的に無害な場面の中に埋め込まれた有害なテキストのペイロード(例:詐欺文書)を含む画像を生成させる、執筆(inscriptive)型のジェイルブレイクを特定し、形式化します。視覚的に問題のあるイメージを引き出すことを目的とした従来の描写(depictive)型ジェイルブレイクとは異なり、執筆型攻撃はテキスト描画機能そのものを武器化します。既存のジェイルブレイク技法は粗い視覚操作向けに設計されているため、文字レベルの忠実性を維持しつつ、多段階の安全フィルタを回避することが困難です。この脆弱性を明らかにするために、ブラックボックス攻撃フレームワークであるEtchを提案します。Etchは敵対的プロンプトを、機能的に直交した3つの層に分解します:意味的カモフラージュ、視覚・空間的アンカリング、そしてタイプグラフィ(書体)エンコーディングです。この分解により、全プロンプト空間に対する共同最適化を扱い可能なサブ問題へと低減し、ゼロ次ループによって反復的に改良します。この過程では、視覚言語モデルが各生成画像を批評し、失敗を特定の層に局所化し、狙いを定めた修正を指示します。2つのベンチマークにおける7モデルに対する大規模な評価の結果、Etchは平均攻撃成功率65.57%(最大91.00%)を達成し、既存のベースラインを大幅に上回ることが示されました。これらの結果は、現在のT2I安全アラインメントにおける重要な盲点を明らかにするとともに、タイポグラフィを理解した防御のためのマルチモーダル機構が緊急に必要であることを強調しています。
ピクセルの間を読む:テキストから画像へのモデルに対するインスクリプティブ(刻印型)な脱獄攻撃
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストから画像(T2I)モデルに対する新たな脅威「インスクリプティブ(刻印型)な脱獄攻撃」を特定する。これにより、そうした有害で判読可能な段落長のテキスト(例:詐欺文書)が、たとえ無害な場面の中に埋め込まれた形で生成されるよう強制できる。
- 先行研究の「ディピクティブ(描写型)な脱獄」と異なる点として、この攻撃はキャラクターレベルの文字レンダリングの忠実さを武器化し、従来の粗い視覚的操作に対する防御の効果を低下させると主張している。
- 著者らは、ブラックボックス攻撃フレームワーク Etch を提案する。これは敵対的プロンプトを3つの直交する層——セマンティックなカモフラージュ、視覚・空間的アンカリング、そしてタイプグラフィ(書体・レイアウト)符号化——に分解し、ゼロ次最適化ループによりそれらを反復的に洗練させる。
- 生成された画像を批評し、どの層(あるいは複数の層)が失敗しているかを局所化し、狙いを定めたプロンプト修正を提案するために、ビジョン言語モデルを用いることで、文字レベルでの制御性を高める。
- 2つのベンチマークにおいて、7つのT2Iモデルで行った実験では、平均攻撃成功率65.57%、最大91.00%を報告し、現在のマルチモーダル安全性アライメントにおける「タイポグラフィ(文字)を考慮した防御」上のギャップを示している。
