概要: イベントカメラは、照明への頑健性とプライバシーに配慮しやすいという固有の利点により、顔認識のための有望なセンシング手段を提供します。しかし、イベントストリームは従来のRGBベースの顔認識システムが依拠する安定したフォトメトリックな見え(見え方)を欠くため、イベントベースの顔認識は、剛体的な顔の動きと個々の顔の幾何により形作られる、構造駆動型の時空間的なアイデンティティ表現をモデル化すべきだと我々は主張します。イベントベースの顔認識専用データセットが依然として不足しているため、我々は剛体的な顔の動きのもとで取得した小規模なイベントベース顔データセットである EFace を構築します。この限られたイベントデータから効果的に学習するために、さらに、空間構造と時間的ダイナミクスを統合してアイデンティティモデリングを行う、イベントベース顔認識のためのフレームワーク EventFace を提案します。具体的には、事前学習済みのRGB顔モデルからイベント領域へ構造的な顔の事前知識を転移するために、低ランク適応(Low-Rank Adaptation: LoRA)を用い、それによってアイデンティティモデリングのための信頼できる空間的基盤を確立します。この基盤の上で、時間的特徴を明示的に符号化するための Motion Prompt Encoder(MPE)と、それらを空間的特徴と融合して、アイデンティティに関連するイベントパターンの表現を強化するための Spatiotemporal Modulator(STM)をさらに導入します。大規模な実験により、EventFace は評価したベースラインの中で最良の性能を達成し、ランク1の識別率が 94.19%、等価誤り率(EER)が 5.35% であることが示されます。さらに、EventFace は、競合手法よりも劣化した照明下でより強い頑健性を示すことが結果から分かります加えて、学習された表現は、テンプレートの再構成可能性が低いことが観察されます。
EventFace:構造駆動型の時空間モデリングによるイベントベース顔認識
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、安定したRGB外観に依存するのではなく、構造駆動型の時空間表現によって個人の同一性をモデル化する、イベントカメラに基づく顔認識手法EventFaceを提案する。
- イベントベースの顔認識に特化したデータセットが不足していることに対処するため、著者らは剛直な顔の動きのもとで取得した小規模データセットEFaceを作成する。
- EventFaceは、事前学習済みのRGB顔モデルからLoRAを用いて空間的な顔の事前知識をイベント領域へ転移し、時間情報はMotion Prompt Encoder(MPE)で符号化したうえで、Spatiotemporal Modulator(STM)により空間特徴と時間特徴を融合する。
- 実験では、Rank-1同一人物識別94.19%およびEER 5.35%を含む、評価したベースラインに対して強い性能が報告されており、劣化した照明条件下でも頑健性が向上している。
- 学習された表現は、テンプレートの再構成可能性が低減しているとも述べられており、プライバシー上の利点が期待できる可能性が示唆される。



