TurboTalk:ワンステップ音声駆動トーキングアバター生成のためのプログレッシブ蒸留
arXiv cs.CV / 2026/4/17
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、複数ステップの音声駆動トーキング・アバターディフュージョンモデルをワンステップ生成器へ変換することを目的としたプログレッシブ蒸留フレームワーク「TurboTalk」を提案します。
- 手法は2段階で、まずDistribution Matching Distillationにより安定した4ステップの「学生(student)」を学習し、その後アドバーサリアル蒸留を用いてデノイジングステップ数を4から1へ段階的に削減します。
- ステップを極端に減らす際の学習不安定性を抑えるため、プログレッシブなタイムステップサンプリングと、蒸留を安定化する自己比較型のアドバーサリアル目的関数を導入しています。
- 実験では、ワンステップでの動画トーキングアバター生成が可能で、推論速度を120倍に高めつつ高い生成品質を維持できると報告されています。
- 本研究は、複数ステップのデノイジングに伴う計算コストの高さを大幅に削減し、実運用の制約に対応することを狙っています。




