AsymK-Talker:非対称カーネル蒸留によるリアルタイムかつ長期視聴向けトーキングヘッド生成

arXiv cs.LG / 2026/5/6

📰 ニュースModels & Research

要点

  • AsymK-Talkerは、音声駆動のトーキングヘッド生成をリアルタイム用途と長期生成に向けて改善するための新しい拡散蒸留手法である。
  • Kernel-Conditioned Loop Generation(KCLG)として、モーションカーネルを用いて時間的整合性を保つ因果的なチャンク単位生成戦略を導入している。
  • Temporal Reference Encoding(TRE)により、静的なアイデンティティ参照を時間に応じた潜在表現へ変換し、音声と映像の同期を高めている。
  • Asymmetric Kernel Distillation(AKD)では、教師モデルが正解モーションカーネルで監督される一方、学生モデルは生成したカーネルから学習して長時間でのドリフトを抑える。
  • 視覚的な忠実度と口の開閉(リップ同期)指標の両方で有望な結果が報告されている。

Abstract

近年の拡散モデルの進歩により、音声駆動のトーキングヘッド生成における視覚的忠実性が大幅に向上しました。それにもかかわらず、既存手法には3つの重要な制約があります。すなわち、リアルタイム推論を妨げる因果的非効率性、時間的に一貫した条件付けに対する非互換性、そして長時間の生成における漸進的ドリフトです。これらが総合的に、リアルタイム応用への展開を強く妨げています。これらの課題を克服するために、本論文では、リアルタイムかつ長時間ホライズンのトーキングヘッド生成を目的とした新しい拡散蒸留手法であるAsymK-Talkerを提案します。AsymK-Talkerは、次の3つの主要コンポーネントから構成されます。(1)Kernel-Conditioned Loop Generation(KCLG):運動カーネルを活用して時間的に一貫した伝播を可能にする、因果的でチャンク単位の生成パラダイム。(2)Temporal Reference Encoding(TRE):静的なアイデンティティ参照を時間を意識した潜在表現へと変換し、音声と視覚の同期を強化。(3)Asymmetric Kernel Distillation(AKD):教師―生徒モデルの蒸留フレームワークであり、教師モデルは監督のために真値の運動カーネルに基づいて条件付けを行う一方、生徒は生成されたカーネルから生成することを学びます。これにより、長い生成シーケンス中の頑健性が保証されます。AsymK-Talkerは、視覚的忠実性および口元(リップ)同期の指標の両方で有望な結果を達成しています。