要旨: 音声・映像のディープフェイク検出では通常、動画内の改ざん痕跡を確認するために、補完的なマルチモーダルモデルを用いる。これらの手法は主に、音声モダリティと映像モダリティの不一致によって生じる音声・映像のアラインメントを通じて改ざん痕跡を抽出する。しかし、従来のマルチモーダル改ざん検出手法には、特徴抽出が不十分であり、かつモダリティ間アラインメントが逸脱するという問題がある。これに対処するため、我々はディープフェイク検出のためのマルチスケール・クロスモーダル・トランスフォーマーエンコーダ(MSCT)を提案する。我々の手法には、隣接する埋め込みの特徴を統合するためのマルチスケール自己注意と、マルチモーダル特徴を融合するための差分(ディファレンシャル)クロスモーダル注意が含まれる。実験の結果、FakeAVCelebデータセットにおいて競争力のある性能が示され、提案構造の有効性が検証された。
MSCT:ディープフェイク検出のための差分クロスモーダル注意
arXiv cs.CV / 2026/4/10
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、モダリティをまたいで改ざん痕跡をより適切に抽出することで、音声・映像によるディープフェイク検出を改善することを目的としたマルチスケール・クロスモーダル・トランスフォーマーエンコーダであるMSCTを提案する。
- 隣接する埋め込みを統合するマルチスケール・セルフアテンションと、音声と映像の特徴をより効果的に融合するための差分クロスモーダル注意を導入することで、従来手法の課題に対処する。
- 本手法は、特徴抽出の不足や音声と映像間のモーダル整合のずれといった、アライメントベース検出器に共通する失敗モードを対象とする。
- FakeAVCelebデータセットでの実験により、提案アーキテクチャの有効性を裏づける競争力のある性能が示される。

