要旨: アイデンティティを保持する動画生成は、ユーザーがお気に入りのキャラクターを題材にした動画をカスタマイズできるようにし、創造的な表現に強力なツールを提供します。しかし、従来の手法は一般に単一のアイデンティティ参照に対して設計・最適化されていることがほとんどです。この根本的な前提は、多様な現実の入力形式を適切に扱えていないため、創造の柔軟性を制限します。さらに単一の情報源に依存すること自体が、解くことが適切でない(ill-posed)状況を構成しており、本質的に曖昧な設定となるため、モデルが新しい文脈のもとでも忠実にアイデンティティを再現することが困難になります。これらの課題に対処するために、我々は AnyID を提示します。AnyID は、超高精度のアイデンティティ保持を特徴とする動画生成フレームワークであり、2つの中核的な貢献を備えています。まず、異種のアイデンティティ入力(例: 顔、ポートレート、動画)を、まとまりのある表現へと効果的に統合する、スケーラブルなオムニ参照(omni-referenced)アーキテクチャを導入します。次に、プライマリ参照(primary-referenced)による生成パラダイムを提案します。ここでは、1つの参照を正準(canonical)のアンカーとして指定し、新しい微分的プロンプト(differential prompt)を用いて、属性レベルでの精密な制御を可能にします。堅牢性と高い忠実度を確実にするため、大規模で入念にキュレーションされたデータセットで学習を行い、その後、強化学習による最終的な微調整段階を実施します。このプロセスでは、人間による評価から構築した嗜好(preference)データセットを活用します。注釈者は、2つの主要基準——アイデンティティ忠実度とプロンプト制御性——に基づいて、動画同士のペア比較を行いました。広範な評価により、AnyID が、異なるタスク設定においても、超高いアイデンティティ忠実度と、優れた属性レベルでの制御性の両方を達成することが検証されます。
AnyID:あらゆる視覚参照からの超高忠実度・ユニバーサルな、アイデンティティ保持型動画生成
arXiv cs.CV / 2026/3/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- AnyID は、従来の「単一のアイデンティティ参照」に最適化された動画生成手法の限界を解消し、顔・肖像・動画など多様な参照から一貫したアイデンティティを保った映像生成を目指すフレームワークです。
- 異種入力を統一表現にまとめる「omni-referenced architecture」と、1つの参照をアンカーにして属性レベルで制御できる「primary-referenced generation paradigm(差分プロンプト)」の2つの中核提案が示されています。
- 大規模で厳密にキュレーションされたデータで学習した後、最終的に強化学習による微調整を行い、人間評価に基づく嗜好データ(対比較)で「アイデンティティ忠実度」と「プロンプト制御性」を同時に高めます。
- 評価では、複数タスク設定において超高いアイデンティティ維持と、従来より優れた属性レベルの制御性を達成したと報告されています。
広告
