VRAG-DFD:MLLMベースのディープフェイク検出のための検証可能なリトリーバル拡張

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、プロの改ざん(フォージェリー)知識が乏しい状況でも性能を向上させることを目的とした、MLLMベースのディープフェイク検出のための検証可能なリトリーバル拡張フレームワーク「VRAG-DFD」を提案する。
  • Retrieval-Augmented Generation(RAG)と強化学習を組み合わせることで、改ざん知識を動的に取得し、不正確な参照情報下でもより重要な推論を支援する。
  • 著者らは、2つのRAGに焦点を当てたデータセットを構築する。FKDはフォージェリー知識のアノテーション、F-CoTはチェイン・オブ・ソート(思考連鎖)を構築するためのデータセットであり、モデルが鑑識知識と推論の痕跡を学習できるようにする。
  • 学習は、3段階のパイプライン(Alignment → SFT → GRPO)を用いて、モデルの批判的推論能力を段階的に育成するよう設計されている。
  • 実験では、ディープフェイク検出の汎化テストにおいて先行技術(SOTA)および競争力のある結果が報告されており、静的な知識注入アプローチを超えた頑健性の向上が示唆される。

Abstract

ディープフェイク検出(DFD)タスクでは、研究者らはMLLMに基づく2種類の手法を提案してきました。すなわち、小型のDFD検出器との補完的な組み合わせ、または静的な改ざん知識の注入です。しかし、専門的な改ざん知識の不足が、これらのDFD-MLLMの性能を妨げています。これを解決するために、私たちは2つの洞察に富んだ課題を深く検討しました。すなわち、(1)MLLMに対して高品質な関連する改ざん知識をどのように提供するか、そして(2)ノイズを含む参照情報を踏まえて、MLLMに重要な推論能力をどのように付与するか、です。注目すべき点として、私たちは、Retrieval-Augmented Generation(RAG)と強化学習(RL)を組み合わせることで、上記2つの問いに対する予備的な解答を得る形で取り組みました。RAGおよびRLの手法により、正確で動的な改ざん知識の検索と強力な重要推論能力を備えたVRAG-DFDフレームワークを提案します。具体的には、データの面では、RAGを用いた2つのデータセットを構築しました。DFD知識の注釈のためのForensic Knowledge Database(FKD)と、重要なCoT(Chain-of-Thought)構築のためのForensic Chain-of-Thought Dataset(F-CoT)です。モデル学習の面では、MLLMの重要な推論能力を段階的に育成するために、3段階の学習方法(Alignment->SFT->GRPO)を採用します。性能の面では、VRAG-DFDはDFDの汎化テストにおいてSOTAを達成し、競争力のある性能を示しました。