GazeCLIP:注視(視線)誘導CLIPと、深められた微細言語プロンプトによる適応強化で実現するディープフェイクの帰属付けと検出
arXiv cs.CV / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、注視(視線)誘導CLIPフレームワークであるGazeCLIPを提案する。適応的に強化された微細(ファインチレベル)な言語プロンプトを用いることで、ディープフェイクの帰属付けおよび新規の生成手法への検出一般化性能の向上を目指す。
- 未知の高度な生成器に対してDFAD性能を評価するための新しい微細ベンチマークを提案する。これには拡散モデルやフローベースのモデルを含む。
- GazeCLIPは、真正の注視ベクトルと改変(偽造)された注視ベクトルとの観測分布の差を活用する。注視に配慮した画像エンコーダ(GIE)により、見た目(外観)ドメインと注視(視線)ドメインの双方からグローバルな偽造埋め込みをマイニングし、より安定した共有特徴空間を構築する。
- 言語洗練エンコーダ(LRE)により、微細なワードセレクタを用いて言語埋め込みを適応的に強化し、より正確な視覚-言語マッチングを改善する。
- ベンチマークでの実験結果では、帰属付けと検出において、最先端(SOTA)に対する平均改善が精度で6.56%、AUCで5.32%であることが報告されている。コードはGitHubで公開予定。




