ドメイン非依存性に向けた視覚基盤モデルのベンチマーク:顔のアンチスプーフィング

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、未見環境に対する頑健なドメイン一般化を目的として、顔のアンチスプーフィングを扱っています。
  • Vision-Language Modelによる手法は計算コストや推論遅延が大きくなりがちであるとして、視覚のみの基盤モデルによるベースラインを提案しています。
  • 著者らは、MICOおよびLSDプロトコルの下で、事前学習済み15モデル(教師ありCNN/ViT、自己教師ありViT)を体系的にベンチマークしました。
  • 結果として、自己教師あり視覚モデル—特に「Registers付きDINOv2」—が注意アーティファクトを強く抑え、きめ細かなスプーフィング手がかりを捉えることが示されます。
  • さらにFAS-Aug、PDA、APLを組み合わせることで、提案する視覚のみベースラインはMICOで最先端性能を達成し、計算効率も維持しながらLSDでも既存手法を上回ります。

要旨: 顔のアンチスプーフィング(FAS)は、未知の環境にまたがって堅牢なドメイン一般化を実現する必要があるため、依然として困難です。近年の動向では、意味的な監督のために視覚言語モデル(VLM)を活用することが増えていますが、こうしたマルチモーダル手法はしばしば過大な計算資源を要求し、推論レイテンシが高いという問題があります。さらに、それらの有効性は、基盤となる視覚特徴の品質によって本質的に制約されます。本論文では、視覚のみの基盤モデルがFASのための非常に効率的で堅牢なベースラインを確立できる可能性を改めて検討します。MICOおよび限定ソースドメイン(LSD)プロトコルを含む、厳しいクロスドメイン状況のもとで、教師ありCNN、教師ありViT、自己教師ありViTなどの15の事前学習済みモデルについて、体系的なベンチマークを実施します。包括的な分析の結果、自己教師ありの視覚モデル、特にRegistersを備えたDINOv2が、注意(アテンション)に関するアーティファクトを大幅に抑制し、重要な微細なスプーフィングの手がかりを捉えることが明らかになりました。さらに、顔のアンチスプーフィングデータ拡張(FAS-Aug)、パッチ単位のデータ拡張(PDA)、および注意重み付きパッチ損失(APL)を組み合わせることで、提案する視覚のみのベースラインは、MICOプロトコルにおいて最先端の性能を達成します。このベースラインは、データ制約のあるLSDプロトコルにおいて既存手法を上回りつつ、計算効率の面でも優れた性能を維持します。本研究は、FASに対する決定的な視覚のみのベースラインを提供し、最適化された自己教師あり視覚トランスフォーマが、視覚のみおよび将来のマルチモーダルFASシステムの双方のバックボーンとして機能し得ることを示します。プロジェクトページは次の通りです: https://gsisaoki.github.io/FAS-VFMbenchmark-CVPRW2026/ 。