Abstract
音声・視覚マルチモーダルの大規模言語モデル(MLLMs)が安全性が重要なアプリケーションへますます導入される中、その脆弱性を理解することが極めて重要になっています。そこで本研究では、マルチモーダル・タイポグラフィを提案します。これは、タイポグラフィによる攻撃が複数のモダリティにわたってMLLMに悪影響を及ぼす方法を検証する、体系的な研究です。先行研究が主に単一モダリティに限定された攻撃に焦点を当てているのに対し、本研究ではMLLMのモダリティ間の脆さ(クロスモーダルな脆弱性)を明らかにします。音声、視覚、テキストの摂動間の相互作用を分析し、連携したマルチモーダル攻撃が、単一モダリティ攻撃よりもはるかに強力な脅威になることを示します(攻撃成功率 =83.43\% 対 34.93\%)。複数の最先端MLLM、タスク、そして常識推論およびコンテンツモデレーションのベンチマークにまたがる本結果は、マルチモーダル・タイポグラフィが、マルチモーダル推論における重要かつ十分に探究されていない攻撃戦略であることを裏付けます。コードおよびデータは公開される予定です。



