MSCT:ディープフェイク検出のための差分クロスモーダル注意

arXiv cs.CV / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モダリティをまたいで改ざん痕跡をより適切に抽出することで、音声・映像によるディープフェイク検出を改善することを目的としたマルチスケール・クロスモーダル・トランスフォーマーエンコーダであるMSCTを提案する。
  • 隣接する埋め込みを統合するマルチスケール・セルフアテンションと、音声と映像の特徴をより効果的に融合するための差分クロスモーダル注意を導入することで、従来手法の課題に対処する。
  • 本手法は、特徴抽出の不足や音声と映像間のモーダル整合のずれといった、アライメントベース検出器に共通する失敗モードを対象とする。
  • FakeAVCelebデータセットでの実験により、提案アーキテクチャの有効性を裏づける競争力のある性能が示される。

要旨: 音声・映像のディープフェイク検出では通常、動画内の改ざん痕跡を確認するために、補完的なマルチモーダルモデルを用いる。これらの手法は主に、音声モダリティと映像モダリティの不一致によって生じる音声・映像のアラインメントを通じて改ざん痕跡を抽出する。しかし、従来のマルチモーダル改ざん検出手法には、特徴抽出が不十分であり、かつモダリティ間アラインメントが逸脱するという問題がある。これに対処するため、我々はディープフェイク検出のためのマルチスケール・クロスモーダル・トランスフォーマーエンコーダ(MSCT)を提案する。我々の手法には、隣接する埋め込みの特徴を統合するためのマルチスケール自己注意と、マルチモーダル特徴を融合するための差分(ディファレンシャル)クロスモーダル注意が含まれる。実験の結果、FakeAVCelebデータセットにおいて競争力のある性能が示され、提案構造の有効性が検証された。

MSCT:ディープフェイク検出のための差分クロスモーダル注意 | AI Navigate