要旨: 野外における堅牢なディープフェイク検出は、操作技術の多様性が増え続け、かつ現実世界での劣化が制御不能であるため、依然として困難です。ディープフェイク検出におけるフォレンジックな手がかりは、2つの補完的なレベルに存在します。すなわち、画像全体の理解を必要とする、意味と統計におけるグローバルな異常と、操作された領域に集中するローカルな偽造の痕跡です。後者は、グローバル平均によって容易に希釈されます。いずれの単一バックボーンや入力スケールも、両方のレベルを効果的にカバーできないため、本研究ではLOGER(LOcal--Global Ensembleによる堅牢なディープフェイク検出)を提案します。グローバル分岐では、複数解像度にわたる異種の視覚基盤モデルバックボーンを用いて、多様な視覚的事前知識に基づく全体的な異常を捉えます。ローカル分岐では、Multiple Instance Learning の top-k 集約戦略によりパッチレベルのモデリングを行い、最も疑わしい領域のみを選択的にプールします。これにより、通常のパッチが優勢であることによる証拠の希釈を抑えます。集約された画像レベルと個々のパッチレベルの双方でのデュアルレベルの教師あり学習により、ローカル応答の弁別性が維持されます。2つの分岐は粒度とバックボーンの双方が異なるため、それらの誤りは概ね非相関となります。この性質を利用して、logit空間での融合を行い、より堅牢な予測を実現します。LOGERはNTIRE 2026 Robust Deepfake Detection Challengeで第2位を獲得し、さらに複数の公開ベンチマークでの追加評価により、多様な操作方法および現実世界での劣化条件にわたる強い堅牢性と汎化性能が確認されます。
LOGER: ロバストなディープフェイク検出のためのローカル−グローバル・アンサンブル(実環境下)
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、実世界の条件下で多様な改変タイプや画像劣化のもとでもディープフェイク検出を改善することを目的とした、二分岐のローカル−グローバル・アンサンブルであるLOGERを提案する。
- グローバル分岐は、複数解像度でヘテロジニアスな視覚基盤モデルのバックボーンを用いることで、全体的な意味論的異常と統計的異常を捉える。一方、ローカル分岐は、上位kプーリングを用いたMultiple Instance Learningによりパッチ単位で解析し、不審な領域に焦点を当てる。
- 二段階の監督(デュアルレベルの教師信号)を、画像を集約したレベルと個々のパッチレベルの両方に適用し、局所的な根拠が薄まることを防ぎつつ、局所の応答が識別的であり続けるようにする。
- 本手法は、グローバル分岐とローカル分岐間で非相関な誤りを活用し、対数it空間で融合することで、よりロバストで汎化可能な予測を実現する。
- LOGERは強い結果を報告しており、NTIRE 2026 ロバスト・ディープフェイク検出チャレンジで2位を獲得したほか、複数の公開ベンチマークおよび劣化設定にわたってロバスト性を示した。




