CMTA：時間的なクロスモーダル・アーティファクトを活用した汎用性の高いAI生成動画検出

arXiv cs.CV / 2026/5/4

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

この論文は、AI生成動画（AIGV）検出がしばしば単一モダリティや時空間の手がかりに偏り、視覚とテキストの意味の時間的な整合といったクロスモーダル信号を見落としている点を指摘している。
「CMTA（cross-modal temporal artifact）」と呼ぶ新しい検出用の指紋を提案し、実動画は意味アラインメントが自然に揺らぐのに対して、AIGVはプロンプトに支配されて不自然に安定した意味軌跡を示すと主張している。
CMTAはBLIPでフレームごとの画像キャプションを生成し、CLIPで視覚-テキスト表現を抽出したうえで、時間方向のモデリングを2系統（粗粒度はGRU、細粒度はTransformer）で行い、クロスモーダル整合の時間的アーティファクトを捉える。
GenVideo、EvalCrafter、VideoPhy、VidProMを含む大規模データセット上で40のサブセットにわたる実験により、SOTA性能と動画生成器間でのより優れた汎化性が示されている。
著者らはCMTAのコードとモデルをGitHubで公開する予定としている。

要旨: 高度なAI動画生成技術の普及は、デジタル動画の真正性に対して前例のない課題をもたらしている。既存のAI生成動画（AIGV）検出手法は主として単一モダリティまたは時空間のアーティファクトに着目しているが、視覚-テキストのクロスモーダル空間における豊富な手がかり、特に意味アライメントの時間的安定性を見落としている。本研究では、AIGVに特徴的なフィンガープリントとして、クロスモーダル時間的アーティファクト（CMTA）を特定する。意味の変化によってクロスモーダル・アライメントに自然な時間的ゆらぎを示す実動画とは異なり、AIGVは与えられた入力プロンプトによって制御される不自然に安定した意味の軌跡を示す。このギャップを埋めるために、本研究ではCMTAフレームワーク、すなわち、共同クロスモーダル埋め込みと多粒度の時間モデリングによってこれらの独自の時間的アーティファクトを捉えるクロスモーダル検出アプローチを提案する。具体的には、CMTAはBLIPを活用してフレームレベルの画像キャプションを生成し、CLIPを用いて対応する視覚-テキスト表現を抽出する。次に、粗い粒度の時間モデリング分岐をGRUで設計し、クロスモーダル・アライメントの時間的な変動を特徴づける。一方で、微細粒度の分岐は、統合された視覚-テキスト特徴から、Transformerエンコーダによりフレーム間の精緻な変化を捉えるよう構築する。GenVideo、EvalCrafter、VideoPhy、VidProMを含む4つの大規模データセットの40のサブセットに対する大規模な実験により、提案手法が新たな最先端の性能を達成するだけでなく、優れたクロスジェネレータ汎化を示すことが検証された。CMTAのコードとモデルはhttps://github.com/hwang-cs-ime/CMTAで公開される。