AsymK-Talker:非対称カーネル蒸留によるリアルタイムかつ長期視聴向けトーキングヘッド生成
arXiv cs.LG / 2026/5/6
📰 ニュースModels & Research
要点
- AsymK-Talkerは、音声駆動のトーキングヘッド生成をリアルタイム用途と長期生成に向けて改善するための新しい拡散蒸留手法である。
- Kernel-Conditioned Loop Generation(KCLG)として、モーションカーネルを用いて時間的整合性を保つ因果的なチャンク単位生成戦略を導入している。
- Temporal Reference Encoding(TRE)により、静的なアイデンティティ参照を時間に応じた潜在表現へ変換し、音声と映像の同期を高めている。
- Asymmetric Kernel Distillation(AKD)では、教師モデルが正解モーションカーネルで監督される一方、学生モデルは生成したカーネルから学習して長時間でのドリフトを抑える。
- 視覚的な忠実度と口の開閉(リップ同期)指標の両方で有望な結果が報告されている。



