音声・映像推論に対するクロスモーダルなタイプ（書体・タイポグラフィ）攻撃の体系的研究

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、安全性が重要な領域で用いられる音声・映像マルチモーダル大規模言語モデル（MLLM）を損なうために、音声・視覚・テキスト入力を擾乱するクロスモーダルな「タイポグラフィ攻撃」を研究する。
先行研究の単一モダリティにおける攻撃研究を超え、「マルチモーダル・タイポグラフィ」を体系的枠組みとして導入し、クロスモーダルな脆弱性を評価する。
著者らは、協調的なマルチモーダル攻撃が、単一モダリティ攻撃よりも大幅に効果的であることを見出し、攻撃成功率は 83.43% 対 34.93% と報告している。
常識推論やコンテンツモデレーションを含む、複数の最先端MLLM、タスク、ベンチマークにまたがる実験により、この戦略は十分に検討されていない一方で、頑健性評価にとって重要であることが示される。
本研究は、防御およびセキュリティテストに関するさらなる研究を支えるため、コードとデータを公開する予定である。

Abstract

音声・視覚マルチモーダルの大規模言語モデル（MLLMs）が安全性が重要なアプリケーションへますます導入される中、その脆弱性を理解することが極めて重要になっています。そこで本研究では、マルチモーダル・タイポグラフィを提案します。これは、タイポグラフィによる攻撃が複数のモダリティにわたってMLLMに悪影響を及ぼす方法を検証する、体系的な研究です。先行研究が主に単一モダリティに限定された攻撃に焦点を当てているのに対し、本研究ではMLLMのモダリティ間の脆さ（クロスモーダルな脆弱性）を明らかにします。音声、視覚、テキストの摂動間の相互作用を分析し、連携したマルチモーダル攻撃が、単一モダリティ攻撃よりもはるかに強力な脅威になることを示します（攻撃成功率 =

83.43\%

対

34.93\%

）。複数の最先端MLLM、タスク、そして常識推論およびコンテンツモデレーションのベンチマークにまたがる本結果は、マルチモーダル・タイポグラフィが、マルチモーダル推論における重要かつ十分に探究されていない攻撃戦略であることを裏付けます。コードおよびデータは公開される予定です。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/7Dailyインサイトを見る →

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

27卒の就活生はESの執筆や面接練習にAIを使うのが「当然」、裏には不安も

日経XTECH

音声・映像推論に対するクロスモーダルなタイプ（書体・タイポグラフィ）攻撃の体系的研究

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

27卒の就活生はESの執筆や面接練習にAIを使うのが「当然」、裏には不安も

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

27卒の就活生はESの執筆や面接練習にAIを使うのが「当然」、裏には不安も

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し