ATTN-FIQA:Vision Transformerに基づく、解釈可能な注意(アテンション)を用いた顔画像品質評価
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision Transformerのアテンションに基づく解釈性を活用した、学習不要の顔画像品質評価手法ATTN-FIQAを提案する。
- 事前ソフトマックスの注意スコア(注意の大きさ)が画像品質を表すという仮説を検証し、高品質な顔は強いクエリ・キー整合により焦点の合った高マグニチュードの注意が生じ、劣化画像では拡散した低マグニチュードの注意になると述べる。
- ATTN-FIQAは、最終トランスフォーマーブロックの事前ソフトマックス注意行列を抽出し、パッチ間でマルチヘッド注意を集約して平均化することで、追加学習や学習のための改造・バックプロパゲーションなしで画像レベル品質スコアを算出する。
- 8つのベンチマークデータセットと4つの顔認識モデルでの評価により、注意に基づく品質スコアが顔画像品質と相関し、品質判定に寄与する顔領域も空間的に示せることを示した。




