私の画像に触れないで:ビジュアル・プロンプト・インジェクションによってマルチモーダル大規模言語モデルが画像を解析することを防ぐ

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ユーザー側の手法である「ImageProtector」を提案する。これは、個人の画像に含まれる機微な内容をマルチモーダルLLMが解析できないようにするため、ほとんど知覚できない視覚的攪乱(摂動)を埋め込む技術である。
  • 想定する脅威を、オープンウェイトのMLLMに対する「視覚プロンプト・インジェクション」として位置づけ、ImageProtectorが複数のモデルとデータセットにわたって確実に拒否応答を誘導できることを示す。
  • 本研究では、6つのMLLMと4つのデータセットに対する実験により、アイデンティティ、位置情報、その他のプライベートな詳細が、大規模に抽出されるリスクを対象としてImageProtectorの有効性を実証する。
  • 対抗策として、ガウスノイズ、DiffPure、敵対的学習を評価し、その結果、これらは攻撃を部分的にしか弱められず、しばしばモデルの精度および/または効率を低下させることが分かった。
  • 総じて本研究は、オープンウェイトMLLM利用者にとっての実用的なプライバシー保護の可能性を提示するとともに、より広い展開に向けた重要な限界とトレードオフも明らかにする。

Abstract

Multi-modal large language models (MLLMs) have emerged as powerful tools for analyzing Internet-scale image data, offering significant benefits but also raising critical safety and societal concerns. In particular, open-weight MLLMs may be misused to extract sensitive information from personal images at scale, such as identities, locations, or other private details. In this work, we propose ImageProtector, a user-side method that proactively protects images before sharing by embedding a carefully crafted, nearly imperceptible perturbation that acts as a visual prompt injection attack on MLLMs. As a result, when an adversary analyzes a protected image with an MLLM, the MLLM is consistently induced to generate a refusal response such as "I'm sorry, I can't help with that request." We empirically demonstrate the effectiveness of ImageProtector across six MLLMs and four datasets. Additionally, we evaluate three potential countermeasures, Gaussian noise, DiffPure, and adversarial training, and show that while they partially mitigate the impact of ImageProtector, they simultaneously degrade model accuracy and/or efficiency. Our study focuses on the practically important setting of open-weight MLLMs and large-scale automated image analysis, and highlights both the promise and the limitations of perturbation-based privacy protection.