フレーム間特徴差分による微表情対応アバター・フィンガープリンティング

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、合成のトーキングヘッド動画が誰によって生成・操作されたかを検証するアバター・フィンガープリンティング手法を提案し、リアルか偽物かではなく運転者（ドライバー）本人の同一性に焦点を当てています。
固定的で微分不可能なランドマーク抽出に代えて、前処理不要のパイプラインとして、生の動画フレームを直接入力し微表情対応バックボーンを用いる仕組みを採用しています。
中核となる手法は、深い特徴空間で連続フレームの特徴マップを差分（減算）するフレーム間特徴差分であり、時間的に安定した見た目の手がかりを相殺しつつ、運転者固有の動きのダイナミクスを保持します。
NVFAIRでのアブレーション実験では、識別に寄与する主要因が時間的なモーションであること、また生の外観特徴が同一性の分離を悪化させ得ることが示されています。
提案手法はNVFAIRで全体AUC 0.877を報告し、ランドマークベースのベースラインに対して多くのクロス・ジェネレータ評価で同等以上の性能を示しています。

Abstract

アバターフィンガープリンティング、すなわち、それが実在するかどうかではなく誰が合成のトーキングヘッド動画を生成したのかを検証することは、顔の再演（face-reenactment）技術の許可された利用に対する重要な安全策である。既存手法は、固定された非微分可能なランドマーク抽出段階に依存しており、そのためフィンガープリンティングモデルを生のピクセルからエンドツーエンドで最適化できない。そこで本研究では、無前処理のシステムを提案する。これは、生の動画フレーム上で動作する、微表情（micro-expression）に注意を払うバックボーンに基づいており、フレーム間の特徴差分を中核の設計原理とする。すなわち、連続する特徴マップを学習された深い特徴空間で減算し、その結果、時間的に安定した外観次元は出力に対してゼロに寄与する一方で、運転者固有の動きのダイナミクスは保持される。NVFAIRに対する制御されたアブレーションにより、時間的なモーションが識別性能の大部分を担っていること、そして生の外観特徴が積極的にアイデンティティの分離を悪化させることが確認される。バックボーンの選択と差分の原理の両方が不可欠である。差分だけでは汎用のエンコーダに適用した場合には不十分であり、外観に支配された特徴は隣接フレーム間でほぼ同一の表現へと崩れてしまう。一方で、微表情に注意を払うF5Cバックボーンは、差分演算が活用できる測定可能なモーションの変動を保持する。外部の前処理を一切行わずに、本モデルはNVFAIRにおいて全体のAUC 0.877を達成し、複数のクロスジェネレーターの組において、ランドマークベースのベースラインと同等、またはそれを上回る。