GazeCLIP：注視（視線）誘導CLIPと、深められた微細言語プロンプトによる適応強化で実現するディープフェイクの帰属付けと検出

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、注視（視線）誘導CLIPフレームワークであるGazeCLIPを提案する。適応的に強化された微細（ファインチレベル）な言語プロンプトを用いることで、ディープフェイクの帰属付けおよび新規の生成手法への検出一般化性能の向上を目指す。
未知の高度な生成器に対してDFAD性能を評価するための新しい微細ベンチマークを提案する。これには拡散モデルやフローベースのモデルを含む。
GazeCLIPは、真正の注視ベクトルと改変（偽造）された注視ベクトルとの観測分布の差を活用する。注視に配慮した画像エンコーダ（GIE）により、見た目（外観）ドメインと注視（視線）ドメインの双方からグローバルな偽造埋め込みをマイニングし、より安定した共有特徴空間を構築する。
言語洗練エンコーダ（LRE）により、微細なワードセレクタを用いて言語埋め込みを適応的に強化し、より正確な視覚-言語マッチングを改善する。
ベンチマークでの実験結果では、帰属付けと検出において、最先端（SOTA）に対する平均改善が精度で6.56%、AUCで5.32%であることが報告されている。コードはGitHubで公開予定。

Abstract

現在のディープフェイク帰属（attribution）またはディープフェイク検出（deepfake detection）は、視覚モダリティのみの探索が限られているため、新しい生成手法に対して十分な汎化性能を示せない傾向があります。これらは、未見の高度な生成器に対する帰属または検出の性能を、粗く評価することが多く、2つのタスクの相乗効果（synergy）を考慮できていません。そこで本研究では、微細なディープフェイク帰属と検出（DFAD）のために、適応強化（adaptive-enhanced）されたきめ細かな言語プロンプトを用いた、新しい注視（gaze）ガイド付きCLIPを提案します。具体的には、拡散（diffusion）やフローモデル（flow models）といった新規な生成器に対して、ネットワークのDFAD性能を評価するための、新規かつきめ細かなベンチマークを構築します。さらに、CLIPに基づく注視対応モデルを導入し、未見の顔改変攻撃に対する汎化性能の向上を狙います。GANと拡散によって生成された顔画像において、目標注視ベクトルが保存されるかどうか、およびその保存の度合いが大きく異なることに加え、生成された注視ベクトルには本物と改変の間で顕著な分布差が存在するという新しい観察に基づき、視覚知覚エンコーダを設計し、その本来備わった注視の違いを用いて、外観ドメインと注視ドメインにまたがってグローバルな改変埋め込み（global forgery embeddings）を掘り起こします。改変の注視プロンプトは、注視エンコーダから抽出し、一般的な改変画像埋め込みと融合させることで、一般的な帰属パターンを捉えられるようにします。これにより、特徴をより安定的で共通性の高いDFAD特徴空間へと変換できるようにします。さらに、言語洗練エンコーダ（LRE）を構築し、適応強化された語選択器（word selector）により、動的に強化された言語埋め込みを生成して、精密な視覚-言語マッチングを可能にします。本ベンチマークに対する大規模な実験の結果、本モデルは帰属と検出の設定それぞれにおける平均性能で、最先端手法をACCで6.56%、AUCで5.32%上回ることが示されました。コードはGitHubで公開予定です。