ディープフェイクは十分に現実的か?意味の不一致という新たな課題を探る

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、現在のディープフェイク検出ベンチマークが二値的すぎることが多く、操作が音声と映像のどこにどう入り込むかといった現実的な揺らぎを十分に反映できていないと指摘しています。
  • 既存の4クラスの音声・映像枠組みを拡張し、真正の音声と真正の映像の間に意味レベルの不一致があるケースを明示的に評価する新設定(RARV-SMM)を提案しています。
  • FakeAVCelebでの実験では、データソースの完全性ではなくコンテンツ側にディープフェイクの痕跡がある場合、最先端モデルが限界を見せることを示しています。
  • 音声・映像の食い違いが大きくなるにつれて異なる弱点を露呈するRARV-SMMのバリアントを提示し、さらに意味の不一致クラスとImageBind埋め込みを用いたセマンティック強化戦略により検出精度を改善できることを提案しています。