Unleashing Vision-Language Semantics for Deepfake Video Detection
arXiv cs.CV / 3/26/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 提案手法VLAForgeは、CLIPなどの事前学習済みVision-Language Model(VLM)が持つ“視覚×言語”の潜在意味(クロスモーダルセマンティクス)を深層偽造動画検出(DFD)に活用し、従来の“視覚特徴のみ”の限界を補うことを狙う。
- ForgePerceiverにより、粒度の細かい手がかりから全体的な手がかりまで、多様で微細な改ざん痕跡を学習しつつ、VLA(Vision-Language Alignment)の知識を保持する設計になっている。
- Identity-Aware VLA scoreを導入し、クロスモーダルセマンティクスとForgePerceiverが学んだ改ざん手がかりを結合することで、より識別的なスコアリングを実現する。
- 身元(identity)に基づいたテキスト・プロンプティングで真偽らしさの手がかりを各アイデンティティ向けに抽出し、フレーム/動画の両レベルで既存SOTAを大きく上回ると報告している。
- コードが公開され、顔のスワップ系からフルフェイス生成系まで複数の動画DFDベンチマークで有効性が示されている。
Related Articles
Regulating Prompt Markets: Securities Law, Intellectual Property, and the Trading of Prompt Assets
Dev.to
Mercor competitor Deccan AI raises $25M, sources experts from India
Dev.to
How We Got Local MCP Servers Working in Claude Cowork (The Missing Guide)
Dev.to
How Should Students Document AI Usage in Academic Work?
Dev.to

I asked my AI agent to design a product launch image. Here's what came back.
Dev.to