ドメイン非依存性に向けた視覚基盤モデルのベンチマーク：顔のアンチスプーフィング

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、未見環境に対する頑健なドメイン一般化を目的として、顔のアンチスプーフィングを扱っています。
Vision-Language Modelによる手法は計算コストや推論遅延が大きくなりがちであるとして、視覚のみの基盤モデルによるベースラインを提案しています。
著者らは、MICOおよびLSDプロトコルの下で、事前学習済み15モデル（教師ありCNN/ViT、自己教師ありViT）を体系的にベンチマークしました。
結果として、自己教師あり視覚モデル—特に「Registers付きDINOv2」—が注意アーティファクトを強く抑え、きめ細かなスプーフィング手がかりを捉えることが示されます。
さらにFAS-Aug、PDA、APLを組み合わせることで、提案する視覚のみベースラインはMICOで最先端性能を達成し、計算効率も維持しながらLSDでも既存手法を上回ります。

要旨: 顔のアンチスプーフィング（FAS）は、未知の環境にまたがって堅牢なドメイン一般化を実現する必要があるため、依然として困難です。近年の動向では、意味的な監督のために視覚言語モデル（VLM）を活用することが増えていますが、こうしたマルチモーダル手法はしばしば過大な計算資源を要求し、推論レイテンシが高いという問題があります。さらに、それらの有効性は、基盤となる視覚特徴の品質によって本質的に制約されます。本論文では、視覚のみの基盤モデルがFASのための非常に効率的で堅牢なベースラインを確立できる可能性を改めて検討します。MICOおよび限定ソースドメイン（LSD）プロトコルを含む、厳しいクロスドメイン状況のもとで、教師ありCNN、教師ありViT、自己教師ありViTなどの15の事前学習済みモデルについて、体系的なベンチマークを実施します。包括的な分析の結果、自己教師ありの視覚モデル、特にRegistersを備えたDINOv2が、注意（アテンション）に関するアーティファクトを大幅に抑制し、重要な微細なスプーフィングの手がかりを捉えることが明らかになりました。さらに、顔のアンチスプーフィングデータ拡張（FAS-Aug）、パッチ単位のデータ拡張（PDA）、および注意重み付きパッチ損失（APL）を組み合わせることで、提案する視覚のみのベースラインは、MICOプロトコルにおいて最先端の性能を達成します。このベースラインは、データ制約のあるLSDプロトコルにおいて既存手法を上回りつつ、計算効率の面でも優れた性能を維持します。本研究は、FASに対する決定的な視覚のみのベースラインを提供し、最適化された自己教師あり視覚トランスフォーマが、視覚のみおよび将来のマルチモーダルFASシステムの双方のバックボーンとして機能し得ることを示します。プロジェクトページは次の通りです: https://gsisaoki.github.io/FAS-VFMbenchmark-CVPRW2026/ 。

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

日経XTECH

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

Dev.to

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

Dev.to

ドメイン非依存性に向けた視覚基盤モデルのベンチマーク：顔のアンチスプーフィング

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩む キャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に