DiffMagicFace: 実ビデオのアイデンティティ一貫性を保った顔編集

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DiffMagicFaceは、テキスト条件付きの拡散モデルを実ビデオの顔編集に拡張するための枠組みで、編集後も顔のアイデンティティを維持しつつ編集内容の意味整合を保つことを目指しています。
  • 2つの微調整済みモデル(テキスト制御と画像制御)を推論時に同時動作させ、フレーム間で同一人物らしさを維持しながら編集対象を一貫して整列させる設計になっています。
  • 編集の一貫性を高めるため、各編集対象ごとに多様な顔の視点を示すデータセットを、レンダリングと最適化手法により構築しています。
  • ビデオデータセットに依存しないにもかかわらず、トーキングヘッド等の複雑タスクで一貫性と内容の両面において高品質な結果を示し、レンダリングソフト作成動画と同等水準を主張しています。
  • 既存の最先端手法との比較で、視覚的な魅力と定量指標の両方で優れた性能を報告しています。

Abstract

テキスト条件付きの画像編集は、画像拡散モデルの進歩によって大きく恩恵を受けてきました。しかし、これらの手法を顔の動画編集へ拡張するには、ソース動画全体を通じて顔のアイデンティティを保持すること、そしてフレーム間で編集対象の一貫性を確実にすることに課題があります。本論文では、テキストと画像の制御のために2つの微調整済みモデルを統合した独自の動画編集フレームワークであるDiffMagicFaceを提案します。これらのモデルは推論中に同時に動作し、アイデンティティの特徴を維持しながら、編集の意味論とシームレスに整合する動画フレームを生成します。編集動画の一貫性を確保するために、各編集対象についてさまざまな顔の視点を示す画像からなるデータセットを構築します。データセットの作成は、レンダリング手法と、その後に続く最適化アルゴリズムの適用によって実現されます。注目すべきことに、提案手法は動画データセットに依存しないにもかかわらず、一貫性と内容の両面で高品質な結果をもたらします。この優れた効果は、トーキングヘッド動画のような複雑なタスクや、互いに非常に近いカテゴリの識別といった課題に対しても成り立ちます。本フレームワークで編集された動画は、従来のレンダリングソフトウェアで作られた動画と同等の水準を示します。現在の最先端手法との比較分析により、本フレームワークは視覚的な魅力と定量的指標の両方で優れた性能を示します。