DiffMagicFace: 実ビデオのアイデンティティ一貫性を保った顔編集
arXiv cs.CV / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- DiffMagicFaceは、テキスト条件付きの拡散モデルを実ビデオの顔編集に拡張するための枠組みで、編集後も顔のアイデンティティを維持しつつ編集内容の意味整合を保つことを目指しています。
- 2つの微調整済みモデル(テキスト制御と画像制御)を推論時に同時動作させ、フレーム間で同一人物らしさを維持しながら編集対象を一貫して整列させる設計になっています。
- 編集の一貫性を高めるため、各編集対象ごとに多様な顔の視点を示すデータセットを、レンダリングと最適化手法により構築しています。
- ビデオデータセットに依存しないにもかかわらず、トーキングヘッド等の複雑タスクで一貫性と内容の両面において高品質な結果を示し、レンダリングソフト作成動画と同等水準を主張しています。
- 既存の最先端手法との比較で、視覚的な魅力と定量指標の両方で優れた性能を報告しています。




