深層偽造動画検出のための視覚言語セマンティクスの解放

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案手法VLAForgeは、CLIPなどの事前学習済みVision-Language Model(VLM)が持つ「視覚×言語」の潜在意味(クロスモーダルセマンティクス)を深層偽造動画検出(DFD)に活用し、従来の「視覚特徴のみ」の限界を補うことを狙う。
  • ForgePerceiverにより、粒度の細かい手がかりから全体的な手がかりまで、多様で微細な改ざん痕跡を学習しつつ、VLA(Vision-Language Alignment)の知識を保持する設計になっている。
  • Identity-Aware VLA scoreを導入し、クロスモーダルセマンティクスとForgePerceiverが学んだ改ざん手がかりを結合することで、より識別的なスコアリングを実現する。
  • 身元(identity)に基づいたテキスト・プロンプティングで真偽らしさの手がかりを各アイデンティティ向けに抽出し、フレーム/動画の両レベルで既存SOTAを大きく上回ると報告している。
  • コードが公開され、顔のスワップ系からフルフェイス生成系まで複数の動画DFDベンチマークで有効性が示されている。

要旨: 最近のディープフェイク動画検出(DFD)研究では、CLIPのような事前学習済みビジョン・言語モデル(VLM)が、異なる人物同一性にまたがってアーティファクトを検出する際に強い汎化能力を示すことが確認されています。しかし、既存の手法は視覚的特徴のみを活用することに重点を置いており、最も際立った強み――潜在空間に埋め込まれた豊富なビジョン・言語セマンティクス――を見落としています。そこで本研究では、こうしたクロスモーダルセマンティクスの可能性を解き放ち、ディープフェイク検出におけるモデルの識別性を高める新しいDFDフレームワークであるVLAForgeを提案します。本研究の貢献は、i)VLAForgeにより、ForgePerceiverを通してVLMの視覚認識を強化することです。ForgePerceiverは独立した学習者として機能し、きめ細かくかつ全体的に、多様で微妙な偽造の手がかりを捉えつつ、事前学習済みのビジョン・言語アラインメント(VLA)知識を保持します。さらに ii)補完的な識別手がかりとして、ForgePerceiverによって学習された偽造手がかりとクロスモーダルセマンティクスを結合することで導出される、アイデンティティ認識型VLAスコアを提供します。特に、VLAスコアは、各人物同一性に合わせて真正性の手がかりを捉えるための、アイデンティティ事前情報に基づくテキスト・プロンプトによって強化されるため、より識別的なクロスモーダルセマンティクスが可能になります。ビデオDFDベンチマークに対する包括的な実験(古典的な顔の入れ替え偽造、および近年のフルフェイス生成偽造を含む)により、提案手法VLAForgeがフレームレベルおよびビデオレベルの両方において、最先端手法を大幅に上回ることが示されます。コードは https://github.com/mala-lab/VLAForge で利用可能です。