顔の埋め込み表現は、異なる深層ニューラルネットワークモデル間で互換性があるのか?

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ドメイン固有のモデルと基盤(foundation)モデルの双方を含む、異なる深層ニューラルネットワーク(DNN)モデルが生成する顔の埋め込み空間が、アイデンティティをどのように互換性のある幾何学的な形で符号化しているかを検証する。
  • 埋め込みを点群としてモデル化し、単純なアフィン(低キャパシティの線形)写像によって、一方のモデルの顔表現を他方のモデルの表現へ整合(アライン)できるかを著者らが試す。
  • 結果として、整合されていない埋め込みを用いる場合と比べて、線形アラインメントはモデル間の顔認識および照合(verification)を大幅に改善することが示される。
  • 本研究では、整合の振る舞いがデータセットを越えて一般化する一方で、モデル・ファミリごとに体系的に異なることが分かり、顔のアイデンティティが符号化される方法における表現の収束(representational convergence)を示唆する。
  • これらの知見は、生体認証モデル間の相互運用性、アンサンブル/組み合わせ戦略、ならびに生体テンプレートのセキュリティに関する潜在的な考慮事項といった下流領域への影響を持つ。

概要: 自動顔認識は、この10年で急速に進歩してきました。それは、領域固有のタスクのために学習可能な深層ニューラルネットワーク(DNN)モデルの前例のない増加によるものです。同時に、広範な視覚または視覚言語タスクで事前学習された基盤モデルは、生体認証を含む多様な領域にわたって印象的な汎化性能を示してきました。ここで重要な疑問が生じます。つまり、異なるDNNモデル――領域固有モデルと基盤モデルの両方――は、異なるデータセット、損失関数、アーキテクチャで学習されているにもかかわらず、顔の同一性を同様の方法で符号化しているのでしょうか。これに関して、私たちは異なるDNNモデルによって推定される埋め込み空間の幾何学的構造を直接解析します。顔画像の埋め込みを点群として扱い、単純なアフィン変換によって1つのモデルの顔表現を別のモデルの表現と整合(アライン)できるかを調べます。その結果、驚くべきクロスモデル適合性が明らかになりました。低い能力の線形写像(リニアマッピング)でも、アラインしていないベースラインに比べて、顔の同一人物照合(識別)および照合(検証)の両タスクにおいて、クロスモデルの顔認識が大幅に改善します。整合のパターンはデータセットを越えて一般化し、モデルファミリ間で体系的に変化します。これらは、顔の同一性符号化における表現の収束(representational convergence)を示唆しています。これらの知見は、モデルの相互運用性、アンサンブル設計、生体認証テンプレートのセキュリティに対して影響を与えます。