音声・映像推論に対するクロスモーダルなタイプ(書体・タイポグラフィ)攻撃の体系的研究

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性が重要な領域で用いられる音声・映像マルチモーダル大規模言語モデル(MLLM)を損なうために、音声・視覚・テキスト入力を擾乱するクロスモーダルな「タイポグラフィ攻撃」を研究する。
  • 先行研究の単一モダリティにおける攻撃研究を超え、「マルチモーダル・タイポグラフィ」を体系的枠組みとして導入し、クロスモーダルな脆弱性を評価する。
  • 著者らは、協調的なマルチモーダル攻撃が、単一モダリティ攻撃よりも大幅に効果的であることを見出し、攻撃成功率は 83.43% 対 34.93% と報告している。
  • 常識推論やコンテンツモデレーションを含む、複数の最先端MLLM、タスク、ベンチマークにまたがる実験により、この戦略は十分に検討されていない一方で、頑健性評価にとって重要であることが示される。
  • 本研究は、防御およびセキュリティテストに関するさらなる研究を支えるため、コードとデータを公開する予定である。

Abstract

音声・視覚マルチモーダルの大規模言語モデル(MLLMs)が安全性が重要なアプリケーションへますます導入される中、その脆弱性を理解することが極めて重要になっています。そこで本研究では、マルチモーダル・タイポグラフィを提案します。これは、タイポグラフィによる攻撃が複数のモダリティにわたってMLLMに悪影響を及ぼす方法を検証する、体系的な研究です。先行研究が主に単一モダリティに限定された攻撃に焦点を当てているのに対し、本研究ではMLLMのモダリティ間の脆さ(クロスモーダルな脆弱性)を明らかにします。音声、視覚、テキストの摂動間の相互作用を分析し、連携したマルチモーダル攻撃が、単一モダリティ攻撃よりもはるかに強力な脅威になることを示します(攻撃成功率 = 83.43\%34.93\%)。複数の最先端MLLM、タスク、そして常識推論およびコンテンツモデレーションのベンチマークにまたがる本結果は、マルチモーダル・タイポグラフィが、マルチモーダル推論における重要かつ十分に探究されていない攻撃戦略であることを裏付けます。コードおよびデータは公開される予定です。