Mutual Forcing:デュアルモードによる自己進化で高速な自己回帰型オーディオ・ビデオキャラクター生成を実現
arXiv cs.CV / 2026/4/29
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、「Mutual Forcing」という枠組みにより、長期のオーディオ・ビデオ同期を保ちつつ、自己回帰型で高速にキャラクターの音声・映像を生成することを目指している。
- 学習は二段階で行い、まず単一モダリティのジェネレータ(音声単体/映像単体)を学習した後、対応するペアデータで共同最適化するために音声・映像の統合モデルへ結合する。
- ストリーミング生成に関して、従来の「まず双方向モデルを学習し、多段階の蒸留で因果生成器へ変換する」流れではなく、ネイティブな高速因果のオーディオ・ビデオ自己回帰モデルを直接学習することを提案している。
- 主要な工夫として、少ステップ生成と多ステップ生成を単一の重み共有モデル内に統合し、自己蒸留を可能にすることで、学習時と推論時の整合性を高めている。
- 実験では、約50サンプリングステップを要する強力な既存手法に対して、4〜8ステップだけで同等以上の性能を示し、効率と品質の双方で大きな利点が確認された。


