要旨: ショートフォーム動画プラットフォームはニュースの主要なチャンネルである一方、各モダリティは単独ではもっともらしく見えるものの、クロスモーダルな関係性が微妙に矛盾しており、視覚映像とキャプションが不一致になるようなケースがあるなど、マルチモーダル情報の誤情報発生源にもなり得ます。2つのベンチマークデータセット FakeSV(中国語)と FakeTT(英語)において、明確な非対称性を観察します。実動画はテキストと映像の一貫性が高く、テキストとオーディオの一貫性は中程度であるのに対し、偽動画は逆のパターンを示します。さらに、単一のグローバルな一貫性スコアは、偽である確率と予測誤差が滑らかに変化する解釈可能な軸を形成します。これらの観察に動機づけられ、私たちは MAGIC3(Modal-Adversarial Gated Interaction and Consistency-Centric Classifier)を示します。これは、複数の粒度で三モーダル間の一貫性信号を明示的にモデル化し、露出させる検出器です。MAGIC3 は、明示的なペアワイズおよびグローバルな一貫性モデリングを、クロスモーダルアテンションから得られるトークンレベルおよびフレームレベルの一貫性信号と組み合わせ、スタイルに頑健なテキスト表現を得るためのマルチスタイル LLM リライトを組み込み、選択的 VLM ルーティングのための不確実性を考慮した分類器を採用します。事前抽出された特徴を用いて、MAGIC3 は FakeSV および FakeTT における最強の非 VLM ベースラインを一貫して上回ります。VLM レベルの精度を維持しつつ、2段階のシステムは 18〜27倍のスループットと 93% の VRAM 節約を達成し、強力なコスト対性能のトレードオフを提供します。
ショート動画におけるフェイクニュース検出のためのクロスモーダル一貫性の可視化
arXiv cs.AI / 2026/3/17
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 2つのベンチマークにおいて、実データのショート動画はテキストと映像の一貫性が高く、テキストと音声の一貫性は中程度であるのに対し、偽の動画はその逆のパターンを示す。
- 著者らは、テキスト・映像・音声の三モーダルを横断する一貫性を、クロスモーダルアテンションから派生する明示的なペアワイズ信号とグローバル信号の両方を用いて明示的にモデル化する検出器MAGIC3を導入する。
- MAGIC3は、複数スタイルのLLMリライトを組み込み、スタイルに頑健なテキスト表現を生成するとともに、不確実性を意識した分類器を用いて、視覚言語モデル(VLM)経路への選択的ルーティングを可能にする。
- FakeSVとFakeTTの評価において、MAGIC3はVLMレベルの精度に匹敵しつつ、18〜27倍のスループット向上と93%のVRAM節約を実現し、強力なコストパフォーマンスのトレードオフを提供する。