EX-FIQA：Vision Transformerの中間層から得る中間早期eXit表現を活用した顔画像品質評価

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Vision Transformer（ViT）の最終層特徴だけでは捉えきれない顔画像品質に関する情報が、中間層表現にも含まれることを主張し、顔画像品質評価を扱います。
12個すべてのトランスフォーマーブロックにわたって体系的に分析し、異なる深さが異なるかつ補完的な品質手がかりを符号化していることを、注意（attention）パターンや層ごとの性能差から示します。
著者らは、早期終了（early exit）とスコア融合の枠組みとして、複数ブロックの予測を深さ重み付き平均で統合し、追加学習やアーキテクチャ変更なしで統計的に品質予測を改善する方法を提案します。
8つのベンチマークと4つの顔認識（FR）モデルを用いた実験により、融合戦略が単一-exitの手法より優れるだけでなく、適応的推論によって計算量と性能の両立（トレードオフ）を高められることを示します。
結果として本研究は、顔解析で重要なのは深い特徴のみという従来の見方に挑戦し、資源制約下でも品質評価を維持しやすい実運用上の利点を示唆しています。

Abstract

顔画像の品質評価は、信頼性の高い顔認識システムにとって重要である一方で、既存のVision Transformer（ViT）ベースの手法は最終層の表現にのみ依存し、ネットワーク中間深度で捉えられる品質に関係する情報を無視している。本論文では、早期終了（early exit）メカニズムとスコア融合戦略を通じて、ViT内部の中間表現が顔品質評価にどのように寄与するかについての初の包括的な調査を提示する。ViT-FIQAアーキテクチャの全12個のトランスフォーマーブロックを体系的に解析し、異なる深度が、注意（attention）パターンや層ごとの性能特性の違いによって示されるように、品質に関係する情報をそれぞれ異なる形で捉え、相互に補完し合うことを実証する。さらに、アーキテクチャの変更や追加の学習なしに、複数のトランスフォーマーブロックからの品質予測を組み合わせるスコア融合フレームワークを提案する。早期終了の解析により、最適な性能と効率のトレードオフが明らかとなり、競争力のある性能を維持しながら大幅な計算節約を可能にする。4つのFRモデルを用い、8つのベンチマークデータセットに対して大規模に評価を行った結果、提案する融合戦略は単一終了（single-exit）アプローチよりも改善することを示す。提案する品質融合手法は、より深いトランスフォーマーブロックに対して漸増的に高い重要度を割り当てる深度加重平均（depth-weighted averaging）を用いることで、ViTにおける特徴学習の階層性を効果的に活用し、最良の品質評価性能を実現する。本研究は、顔解析に深い特徴だけが重要であるという従来の常識に挑戦し、中間表現にも品質評価に有用な情報が含まれていることを明らかにする。提案フレームワークは、リソース制約に応じて計算を適応的に行えるようにしつつ、競争力のある品質評価能力を維持することで、実世界の生体認証システムに実用的な利点をもたらす。