生成者の属性情報に導かれたクロスモーダル深層偽造検出：フォレンジック・フィンガープリントによる手法

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、音声・映像のディープフェイク検出を単なる二値分類で行うと、真の生成者由来のフォレンジック痕跡ではなくデータセット特有のアーティファクトに依存しがちで、頑健性が損なわれると主張します。
AMDD（Attribution-Guided Multimodal Deepfake Detection）という枠組みを提案し、検出だけでなく「どの生成器で改ざんされたか」の属性推定も同時に行うことで、共有埋め込み空間の幾何制約を強化します。
Cross-Modal Forensic Fingerprint Consistency（CMFFC）損失により、視覚と音声で生じる生成者由来の痕跡の整合を取ります。これは、会話音声と表情の身体的な結びつきに基づく相関痕跡が、合成パイプラインでは乱される点を利用します。
FakeAVCelebで、バランス精度99.7%、AUC 99.8%、属性精度95.9%と非常に高い性能が報告され、複数データセットでの評価では実動画の検出は頑健に一般化する一方、未見の生成器に対する偽動画検出は依然として課題であることを示しています。
アーキテクチャとして、動画側はResNet50＋時系列アテンション、音声側は（メルスペクトログラム用の）ResNet18を用い、従来モデルで見られた表現能力の不均衡を補う設計になっています。

日経XTECH

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to