マルチモーダル大規模言語モデルに対する敵対的プロンプト・インジェクション攻撃

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚モダリティに悪意ある指示を埋め込むことでマルチモーダル大規模言語モデルを狙う、新しいタイプの敵対的プロンプト・インジェクションを調査する。
有界なテキスト・オーバーレイを用いて入力画像に悪意あるプロンプトを適応的に埋め込む手法を提案し、さらに知覚されにくい視覚的摂動を反復的に最適化して、悪意ある視覚/テキストのターゲットに対応する内部特徴表現へ一致させる。
視覚ターゲットは「文字としてレンダリングされた画像」として構築し、最適化の過程で段階的に洗練させることで、意味的な忠実性と、モデル間での転移可能性を高める。
2つのマルチモーダル理解タスクおよび複数のクローズドソースのMLLMに対する実験により、本提案手法が、主にテキストまたは人間に観測可能な視覚プロンプトに依存する既存のプロンプト・インジェクション手法よりも優れていることが示される。