ATTN-FIQA:Vision Transformerに基づく、解釈可能な注意(アテンション)を用いた顔画像品質評価

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Vision Transformerのアテンションに基づく解釈性を活用した、学習不要の顔画像品質評価手法ATTN-FIQAを提案する。
  • 事前ソフトマックスの注意スコア(注意の大きさ)が画像品質を表すという仮説を検証し、高品質な顔は強いクエリ・キー整合により焦点の合った高マグニチュードの注意が生じ、劣化画像では拡散した低マグニチュードの注意になると述べる。
  • ATTN-FIQAは、最終トランスフォーマーブロックの事前ソフトマックス注意行列を抽出し、パッチ間でマルチヘッド注意を集約して平均化することで、追加学習や学習のための改造・バックプロパゲーションなしで画像レベル品質スコアを算出する。
  • 8つのベンチマークデータセットと4つの顔認識モデルでの評価により、注意に基づく品質スコアが顔画像品質と相関し、品質判定に寄与する顔領域も空間的に示せることを示した。