要旨: 生成AIの急速な進歩により、超現実的な音声・映像のディープフェイクが可能になり、個人の安全と社会的信頼に対する脅威が深刻化している。既存のほとんどのディープフェイク検出器は、単一モダリティのアーティファクト、または音声・映像間の不一致のいずれかに依存しており、両方の情報源を共同で活用できていない。さらに、生成器固有のアーティファクトに依存する検出器は、未知の偽造に直面すると汎化性能が低下する傾向がある。我々は、頑健で一般化可能な検出は、モダリティ内およびモダリティ間にまたがる固有の音声・映像の整合性に基づくべきだと主張する。そこで本研究では、HAVIC(Holistic Audio-Visual Intrinsic Coherence-based deepfake detector)を提案する。HAVICはまず、真正の動画で事前学習することにより、モダリティ固有の構造的整合性、ならびにモダリティ間のミクロおよびマクロの整合性に関する事前知識(priors)を学習する。学習した事前知識に基づき、HAVICはさらに、ディープフェイク検出のために音声・映像の特徴を動的に融合する、ホリスティックな適応的アグリゲーションを実行する。加えて、最先端の商用ジェネレータから生成されたテキストから動画、および画像から動画の偽造の両方を含む、高精細な音声・映像ディープフェイクデータセットであるHiFi-AVDFを導入する。複数のベンチマークにわたる大規模な実験の結果、HAVICは既存の最先端手法を大幅に上回り、最も難しいクロスデータセットの状況において9.39%のAP改善および9.37%のAUC改善を達成した。我々のコードおよびデータセットは https://github.com/tuffy-studio/HAVIC で公開している。
石一つ残さず探る:深層フェイク検出のための、オーディオ・ビジュアルにおけるホリスティックな本質的整合性の解明
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単一モダリティのアーティファクトや単純な音声・映像間の不一致に依存するのではなく、音声モダリティと視覚モダリティの内外に存在する本質的整合性を活用する深層フェイク検出器 HAVIC を提案する。
- HAVIC は真正な動画で事前学習し、モダリティ固有の構造的整合性およびモダリティ間のミクロ/マクロ整合性の事前知識(prior)を学習した後、ホリスティックな適応的アグリゲーションによって音声・映像の特徴を動的に融合する。
- 著者らは、このアプローチが一般化性能を向上させることを報告しており、とりわけ、生成器固有のアーティファクト手法が通常劣化するクロスデータセット試験でも性能が保たれる。
- さらに、HiFi-AVDF として、最先端の商用システムが生成したテキストから動画への改変(text-to-video)および画像から動画への改変(image-to-video)を含む高忠実度の音声・映像ディープフェイクデータセットを公開する。
- 実験の結果、HAVIC は既存の最先端手法に対して大幅な改善を達成した。最も困難なクロスデータセットの状況では、+9.39% AP および +9.37% AUC を示している。コードおよびデータは公開されている。