SAVe：視覚アーティファクトと音声・映像の不整合を悪用する自己教師あり音声・映像ディープフェイク検出

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

提案手法SAVeは、マルチモーダルのディープフェイクに見られる微細な視覚アーティファクトと音声・映像の不整合を捉える自己教師ありの検出フレームワークである。
従来の「合成データ中心で学習」する依存を避けるため、SAVeは真正動画だけで学習し、アイデンティティを保ちつつ局所領域を意図的に自己ブレンドした疑似改変をその場で生成する。
視覚側では顔の複数粒度に対して補完的な手がかりを学習し、音声側では口の動きと音声の同期（リップ・スピーチ同期）のズレを検出するアライメント成分でクロスモーダル証拠を捉える。
FakeAVCelebおよびAV-LipSync-TIMITでの実験により、同一領域での競争力のある性能と、別データセットへの汎化性能の高さが示されている。
研究全体として、合成偽造への学習バイアスを抑え、未知の改変にもスケールしやすいマルチモーダル検出の自己教師ありパラダイムを提示している。

Abstract

マルチモーダル・ディープフェイクは、微妙な視覚的アーティファクトやモーダリティ間の不整合を示し得ますが、特に検出器が主として厳選された合成の改ざんに対して学習されている場合、それらの検出は依然として困難です。この合成への依存は、データセットおよびジェネレータのバイアスを導入し、スケーラビリティと、未見の操作に対する頑健性を制限します。私たちは、真正の動画のみから学習する自己教師ありの音声・映像ディープフェイク検出フレームワークであるSAVeを提案します。SAVeは、オンザフライで、本人性を保持し、領域を意識した自己ブレンドによる疑似操作を生成し、改ざんアーティファクトを模倣します。これにより、複数の顔の粒度にわたって補完的な視覚的手がかりをモデルが学習できるようになります。モーダル間の証拠を捉えるために、SAVeはさらに、音声・映像のアライメント構成要素を通じて唇と音声の同期をモデル化し、音声・映像の改ざんに特徴的な時間的不整合パターンを検出します。FakeAVCelebおよびAV-LipSync-TIMITにおける実験では、領域内での競争力のある性能と、強力なクロスデータセットでの汎化が示され、マルチモーダル・ディープフェイク検出における自己教師あり学習を、スケーラブルなパラダイムとして強調しています。