マルチモーダルモデルによるID文書のプレゼンテーション攻撃検出

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来の視覚のみのシステムでは見落とされ得るなりすまし攻撃によりよく耐えるために、ID文書に対するプレゼンテーション攻撃検出（PAD）へマルチモーダルモデルを統合することを提案する。
Paligemma、LLaVA、Qwen といった事前学習済みのマルチモーダルシステムを用い、文書種別、発行者、日付といったテキスト／文書メタデータと、視覚の深い埋め込み（deep embeddings）を組み合わせる。
実験結果は、マルチモーダル融合のアプローチを用いても、これらのモデルがID文書におけるPADを正確に検出することに依然として苦戦していることを示唆する。
本研究は、PADのような特殊化された生体セキュリティ課題に汎用のマルチモーダルLLM／Visionモデルを適用することの可能性と、現時点での限界の両方を浮き彫りにする。

要旨: ID文書におけるプレゼンテーション攻撃検出（PAD）へマルチモーダルモデルを統合することは、生体認証セキュリティにおける大きな進歩です。従来のPADシステムは視覚的特徴のみに依存しているため、高度ななりすまし攻撃を検出できないことがよくあります。本研究では、Paligemma、Llava、Qwenといった事前学習済みマルチモーダルモデルを利用して、ID文書に対するプレゼンテーション攻撃の検出を強化することにより、視覚モダリティとテキストモダリティの組み合わせを探究します。この手法では、深い視覚埋め込みと文脈メタデータ（例：文書タイプ、発行者、日付）を統合します。しかし、実験結果は、これらのモデルがID文書におけるPADを正確に検出するのに苦戦することを示しています。