アバター指紋認識の活用：複数の生成器によるフォトリアルなトーキングヘッド公共データベースとベンチマーク

arXiv cs.CV / 2026/3/31

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文では、アバター指紋認識の研究をより現実的ななりすまし（impropernation）状況で支援するために、複数の最先端アバター生成器を用いて構築された新しい公開トーキングヘッド・アバターデータセットであるAVAPrintDBを紹介する。
AVAPrintDBには、自身（self）とクロス再現（cross-reenactment）の両方のサンプルが含まれており、既存データセットでは十分にカバーされていない、正当な利用とアイデンティティのなりすましのシナリオを模倣することを目的としている。
著者らは、アバター指紋認識のための標準化された再現可能なベンチマークを定義し、公開されている最先端手法に加えて、DINOv2やCLIPのようなファンデーションモデルを用いるアプローチを評価する。
結果から、アイデンティティに関連する運動の手がかりは合成アバター間でも維持されうる一方で、現在の指紋認識システムは、生成器／合成パイプラインの変更やデータセット／ソースのシフトに対して依然として非常に敏感であることが示される。
データセット、ベンチマークのプロトコル、そして指紋認識システムは公開されており、再現可能な研究を可能にし、ドメインや生成器のシフトに対する頑健性をより適切に検討できるようにする。

Abstract

写実的なアバター生成における最近の進展により、高い現実感を備えた話者（トーキングヘッド）アバターが可能になり、AIを介したコミュニケーションにおけるアイデンティティのなりすまし（偽装）に関するセキュリティ上の懸念が高まっています。この難しい課題を前進させるために、アバターフィンガープリンティングのタスクは、2つのアバター動画が同一の人間の操作者によって駆動されているのかどうかを判定することを目指します。しかし、文献中の現在の公開データベースは乏しく、専ら旧来の話者（トーキングヘッド）アバター生成器に基づいており、現在のアバターフィンガープリンティング課題に対する現実的な状況を表していません。この状況を克服するため、本記事では、アバターフィンガープリンティング用の新しい公開マルチジェネレータ話者アバターデータベースであるAVAPrintDBを紹介します。AVAPrintDBは、2つの音声・映像コーパスと3つの最先端のアバター生成器（GAGAvatar、LivePortrait、HunyuanPortrait）から構築されており、異なる合成（シンセシス）のパラダイムを反映しています。また、正当な使用と、なりすましのシナリオを模擬するために、自身（self）と他者（cross）の再演（reenactment）の両方を含んでいます。このデータベースに基づき、アバターフィンガープリンティングのための標準化され、再現可能なベンチマークも定義します。そこでは、公開されている最先端のアバターフィンガープリンティングシステムを考慮し、さらにFoundation Models（DINOv2およびCLIP）に基づく新しい手法を探究します。また、ジェネレータとデータセットのシフト（shift）に関する包括的な分析も行います。結果として、アイデンティティに関連する動きの手がかりは合成アバター間で保持される一方で、現在のアバターフィンガープリンティングシステムは、合成パイプラインとソースドメインの変化に対して非常に高い感度を示すことが分かりました。AVAPrintDB、ベンチマークプロトコル、ならびにアバターフィンガープリンティングシステムは、再現可能な研究を促進するために公開されています。