TurboTalk:ワンステップ音声駆動トーキングアバター生成のためのプログレッシブ蒸留

arXiv cs.CV / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、複数ステップの音声駆動トーキング・アバターディフュージョンモデルをワンステップ生成器へ変換することを目的としたプログレッシブ蒸留フレームワーク「TurboTalk」を提案します。
  • 手法は2段階で、まずDistribution Matching Distillationにより安定した4ステップの「学生(student)」を学習し、その後アドバーサリアル蒸留を用いてデノイジングステップ数を4から1へ段階的に削減します。
  • ステップを極端に減らす際の学習不安定性を抑えるため、プログレッシブなタイムステップサンプリングと、蒸留を安定化する自己比較型のアドバーサリアル目的関数を導入しています。
  • 実験では、ワンステップでの動画トーキングアバター生成が可能で、推論速度を120倍に高めつつ高い生成品質を維持できると報告されています。
  • 本研究は、複数ステップのデノイジングに伴う計算コストの高さを大幅に削減し、実運用の制約に対応することを狙っています。

Abstract

既存の音声駆動型ビデオ・デジタルヒューマン生成モデルは、多段階のノイズ除去に依存しているため、計算オーバーヘッドが大きく、現実の環境での展開を強く制限しています。ワンステップ蒸留のアプローチは推論を大幅に高速化できますが、多くの場合、学習の不安定さに悩まされます。この課題に対処するため、我々はTurboTalkを提案します。TurboTalkは、マルチステップの音声駆動型ビデオ拡散モデルを単一ステップの生成器へと効果的に圧縮する、2段階の漸進的蒸留フレームワークです。まず、Distribution Matching Distillationを採用して、強力かつ安定した4ステップの学生モデルを得ます。次に、敵対的蒸留によって、ノイズ除去ステップ数を4から1へと漸進的に減らします。極端なステップ削減下での安定した学習を確実にするため、漸進的なタイムステップサンプリング戦略と、学習を安定化する中間の敵対参照を提供する自己比較の敵対的目的関数を導入します。我々の手法は、ビデオ・トーキング・アバターのワンステップ生成を実現し、高い生成品質を維持しながら推論速度を120倍に向上させます。