VRAG-DFD：MLLMベースのディープフェイク検出のための検証可能なリトリーバル拡張

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、プロの改ざん（フォージェリー）知識が乏しい状況でも性能を向上させることを目的とした、MLLMベースのディープフェイク検出のための検証可能なリトリーバル拡張フレームワーク「VRAG-DFD」を提案する。
Retrieval-Augmented Generation（RAG）と強化学習を組み合わせることで、改ざん知識を動的に取得し、不正確な参照情報下でもより重要な推論を支援する。
著者らは、2つのRAGに焦点を当てたデータセットを構築する。FKDはフォージェリー知識のアノテーション、F-CoTはチェイン・オブ・ソート（思考連鎖）を構築するためのデータセットであり、モデルが鑑識知識と推論の痕跡を学習できるようにする。
学習は、3段階のパイプライン（Alignment → SFT → GRPO）を用いて、モデルの批判的推論能力を段階的に育成するよう設計されている。
実験では、ディープフェイク検出の汎化テストにおいて先行技術（SOTA）および競争力のある結果が報告されており、静的な知識注入アプローチを超えた頑健性の向上が示唆される。

Abstract

ディープフェイク検出（DFD）タスクでは、研究者らはMLLMに基づく2種類の手法を提案してきました。すなわち、小型のDFD検出器との補完的な組み合わせ、または静的な改ざん知識の注入です。しかし、専門的な改ざん知識の不足が、これらのDFD-MLLMの性能を妨げています。これを解決するために、私たちは2つの洞察に富んだ課題を深く検討しました。すなわち、（1）MLLMに対して高品質な関連する改ざん知識をどのように提供するか、そして（2）ノイズを含む参照情報を踏まえて、MLLMに重要な推論能力をどのように付与するか、です。注目すべき点として、私たちは、Retrieval-Augmented Generation（RAG）と強化学習（RL）を組み合わせることで、上記2つの問いに対する予備的な解答を得る形で取り組みました。RAGおよびRLの手法により、正確で動的な改ざん知識の検索と強力な重要推論能力を備えたVRAG-DFDフレームワークを提案します。具体的には、データの面では、RAGを用いた2つのデータセットを構築しました。DFD知識の注釈のためのForensic Knowledge Database（FKD）と、重要なCoT（Chain-of-Thought）構築のためのForensic Chain-of-Thought Dataset（F-CoT）です。モデル学習の面では、MLLMの重要な推論能力を段階的に育成するために、3段階の学習方法（Alignment->SFT->GRPO）を採用します。性能の面では、VRAG-DFDはDFDの汎化テストにおいてSOTAを達成し、競争力のある性能を示しました。