Aletheia:物理条件付き局所アーティファクト注意(PhyLAA-X)によるエンドツーエンドで汎化可能かつ頑健なディープフェイク動画検出

arXiv cs.CV / 2026/4/21

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • 本論文は、クロスジェネレータ変化、強い圧縮、敵対的摂動下でも頑健性を高めることを目的にした、局所アーティファクト注意の物理条件付き拡張「PhyLAA-X(Aletheia)」を提案する。
  • optical-flow curl、specular-reflectance skewness、rPPGパワースペクトルの3種類の物理由来特徴ボリュームを、クロスアテンション・ゲーティングと共鳴整合性損失を通じて注意計算へエンドツーエンドで組み込み、物理的不変量に学習を結び付ける。
  • EfficientNet-B4+BiLSTM、ResNeXt-101+Transformer、Xception+因果Conv1Dなど複数の時空間バックボーンにまたがる効率的なアンサンブルを用い、不確実性に応じた適応的重み付けで主要ベンチマーク全般(FaceForensics++ c23、Celeb-DF v2、DFDC)で性能を改善した。
  • 先行のLAA-Netをクロスジェネレータ設定で4.1〜7.3%上回り、epsilon=0.02のPGD-10攻撃下でも79.4%の精度を維持するなど、高い頑健性が報告され、アブレーションでも単体での寄与が確認されている。
  • 生成システム一式(事前学習済み重み、再現性・敵対的アーティファクトADC-2026を含む)をGitHubで公開(v1.2、2026年4月)している。

要旨: 最先端のディープフェイク検出器は、同一領域内ではほぼ完璧な精度を達成する一方で、ジェネレータ間のシフト、重い圧縮、そして敵対的摂動に対して性能が劣化する。根本的な制約は、意味的アーティファクトの学習と物理的な不変量の分離にあるままだ。具体的には、光学フローの不連続、鏡面反射の不整合、心拍で変調された反射率(rPPG)を、事後的な特徴として扱うか、あるいは無視している。
本研究では、Localized Artifact Attention (LAA-X) の新しい物理条件付き拡張である PhyLAA-X を提案する。PhyLAA-X は、3つのエンドツーエンドで微分可能な物理由来特徴体積(光学フローの渦度、鏡面反射率の歪度、空間的にアップサンプリングされた rPPG パワースペクトル)を、クロスアテンションのゲーティングと共鳴整合性損失を通じて、LAA-X の注意計算に直接注入する。これにより、意味的不整合と物理的な違反が同時に生じる操作境界をネットワークに学習させる。そこは、生成モデルが一貫して再現するのが本質的に難しい領域である。
PhyLAA-X は、不確実性を考慮した適応的重み付けを用いた効率的な時空間アンサンブル(EfficientNet-B4+BiLSTM、ResNeXt-101+Transformer、Xception+causal Conv1D)に組み込む。FaceForensics++ (c23) では Aletheia が 97.2% の精度 / 0.992 の AUC-ROC、Celeb-DF v2 では 94.9% / 0.981、DFDC では 90.8% / 0.966 を達成し、最も強力な公表ベースライン(LAA-Net [1])をクロスジェネレータ設定で 4.1-7.3% 上回り、epsilon = 0.02 の PGD-10 敵対攻撃下でも 79.4% の精度を維持する。単一バックボーンのアブレーションにより、PhyLAA-X だけで 4.2% のクロスデータセット AUC 向上が得られることを確認した。完全なプロダクションシステムは https://github.com/devghori1264/Aletheia(v1.2、2026年4月)でオープンソース化されており、事前学習済み重み、敵対的コーパス(本研究では ADC-2026 と呼ぶ)、および完全な再現性アーティファクトが提供される。