概要: 軽量な顔認識は、厳しい制約(遅延、メモリ、エネルギー消費)を満たしつつ信頼性の高い精度を維持する必要があるため、エッジおよびモバイル端末への導入においてますます重要になっています。近年、ハイブリッドCNN-Transformerアーキテクチャによって大域的な文脈のモデリングは進展しているものの、認識性能と計算効率の間で効果的なバランスを達成することは依然として未解決の課題です。本研究では、モバイル顔認識における効率的な大域—局所特徴の相互作用を目的として設計された、我々のFaceLiVTハイブリッドアーキテクチャの改良版であるFaceLiVTv2を提案します。中核となるのはLite MHLAであり、元の多層注意設計を、多頭の線形トークン射影およびアフィンなリスケール変換に置き換える軽量な大域トークン相互作用モジュールです。これにより冗長性を削減しつつ、頭(ヘッド)間での表現多様性を維持します。さらに、Lite MHLAを統合されたRepMixブロックに組み込み、局所的および大域的な特徴相互作用を調整するとともに、埋め込み段階で適応的な空間集約を行うために大域的な深さ方向畳み込み(global depthwise convolution)を採用します。実験設定のもとで、LFW、CA-LFW、CP-LFW、CFP-FP、AgeDB-30、IJBにおける結果から、FaceLiVTv2は既存の軽量手法に比べて認識精度と効率のトレードオフを一貫して改善することが示されました。特に、FaceLiVTv2はFaceLiVTv1に比べてモバイル推論のレイテンシを22%削減し、モバイル端末上でGhostFaceNetsに対して最大30.8%の高速化を達成しました。また、プラットフォームをまたいでEdgeFaceおよびKANFaceに対して20〜41%のレイテンシ改善を提供しながら、より高い認識精度を維持しています。これらの結果は、FaceLiVTv2がリアルタイム顔認識のための実用的でデプロイ可能な解決策であることを示しています。コードは https://github.com/novendrastywn/FaceLiVT で利用可能です。
FaceLiVTv2:効率的なモバイル顔認識のための改良ハイブリッドアーキテクチャ
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、モバイルおよびエッジ環境における顔認識に対し、厳しいレイテンシ・メモリ・エネルギー制約のもとで精度と効率のトレードオフを改善することを目的とした軽量ハイブリッドCNN–TransformerアーキテクチャであるFaceLiVTv2を提案する。
- FaceLiVTv2の主要な革新はLite MHLAであり、従来の重い多層注意設計を、マルチヘッドの線形トークン投影とアフィンなリスケール変換に置き換えることで冗長性を削減しつつ、注意ヘッド間での多様性を維持する。
- 本モデルは、Lite MHLAを統一されたRepMixブロックに組み込み、グローバルとローカルの特徴相互作用を調整し、埋め込み生成時にはグローバルな深さ方向畳み込みを用いて適応的な空間集約を行う。
- LFW、CA-LFW、CP-LFW、CFP-FP、AgeDB-30、IJBを含むベンチマークでの実験により、既存の軽量手法に対して一貫した精度向上が確認され、同時に推論の実行効率も高められる。
- 報告されている性能向上として、FaceLiVTv1に比べてモバイル推論レイテンシを22%削減し、GhostFaceNetsに対して最大30.8%の高速化を達成する。さらに、EdgeFaceやKANFaceに対しても、認識精度をより高く維持しながら追加で20–41%のレイテンシ改善が得られている。

