EX-FIQA:Vision Transformerの中間層から得る中間早期eXit表現を活用した顔画像品質評価
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision Transformer(ViT)の最終層特徴だけでは捉えきれない顔画像品質に関する情報が、中間層表現にも含まれることを主張し、顔画像品質評価を扱います。
- 12個すべてのトランスフォーマーブロックにわたって体系的に分析し、異なる深さが異なるかつ補完的な品質手がかりを符号化していることを、注意(attention)パターンや層ごとの性能差から示します。
- 著者らは、早期終了(early exit)とスコア融合の枠組みとして、複数ブロックの予測を深さ重み付き平均で統合し、追加学習やアーキテクチャ変更なしで統計的に品質予測を改善する方法を提案します。
- 8つのベンチマークと4つの顔認識(FR)モデルを用いた実験により、融合戦略が単一-exitの手法より優れるだけでなく、適応的推論によって計算量と性能の両立(トレードオフ)を高められることを示します。
- 結果として本研究は、顔解析で重要なのは深い特徴のみという従来の見方に挑戦し、資源制約下でも品質評価を維持しやすい実運用上の利点を示唆しています。




