MLLMを盲目にする:MLLMコンテンツモデレーションにおける敵対的スミッグリング攻撃

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コンテンツモデレーションに用いられるマルチモーダル大規模言語モデル(MLLM)が、「敵対的スミッグリング(adversarial smuggling)」によって回避され得ることを示す。具体的には、危険な内容を、人間が読めるビジュアル内に隠しつつ、モデルがそれを読み取れない/理解できないようにする。
  • 本稿では、2つの攻撃メカニズムを区別する。Perceptual Blindness(知覚的盲目性:テキスト認識を妨害する)と、Reasoning Blockade(推論の遮断:テキストが認識できたとしても意味理解を妨げる)である。
  • 著者らは、1,700件の敵対的スミッグリング事例を含むベンチマークSmuggleBenchを導入し、プロプライエタリモデル(例:GPT-5)およびオープンソースモデル(例:Qwen3-VL)の両方に対して、攻撃成功率が90%を超えることを報告している。
  • 脆弱性分析では、根本原因として、視覚エンコーダの能力の限定、OCR(光学文字認識)の頑健性におけるギャップ、ならびにドメイン固有の敵対的例の不足が挙げられている。
  • 初期の対策実験では、Chain-of-Thoughtによるテスト時スケーリング、ならびにSFT(教師あり微調整)による敵対的学習を検討している。さらに、著者らは研究および防御開発のためにコードを公開している。

Abstract

Multimodal Large Language Models (MLLMs) are increasingly being deployed as automated content moderators. Within this landscape, we uncover a critical threat: Adversarial Smuggling Attacks. Unlike adversarial perturbations (for misclassification) and adversarial jailbreaks (for harmful output generation), adversarial smuggling exploits the Human-AI capability gap. It encodes harmful content into human-readable visual formats that remain AI-unreadable, thereby evading automated detection and enabling the dissemination of harmful content. We classify smuggling attacks into two pathways: (1) Perceptual Blindness, disrupting text recognition; and (2) Reasoning Blockade, inhibiting semantic understanding despite successful text recognition. To evaluate this threat, we constructed SmuggleBench, the first comprehensive benchmark comprising 1,700 adversarial smuggling attack instances. Evaluations on SmuggleBench reveal that both proprietary (e.g., GPT-5) and open-source (e.g., Qwen3-VL) state-of-the-art models are vulnerable to this threat, producing Attack Success Rates (ASR) exceeding 90%. By analyzing the vulnerability through the lenses of perception and reasoning, we identify three root causes: the limited capabilities of vision encoders, the robustness gap in OCR, and the scarcity of domain-specific adversarial examples. We conduct a preliminary exploration of mitigation strategies, investigating the potential of test-time scaling (via CoT) and adversarial training (via SFT) to mitigate this threat. Our code is publicly available at https://github.com/zhihengli-casia/smugglebench.