Mutual Forcing:デュアルモードによる自己進化で高速な自己回帰型オーディオ・ビデオキャラクター生成を実現

arXiv cs.CV / 2026/4/29

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、「Mutual Forcing」という枠組みにより、長期のオーディオ・ビデオ同期を保ちつつ、自己回帰型で高速にキャラクターの音声・映像を生成することを目指している。
  • 学習は二段階で行い、まず単一モダリティのジェネレータ(音声単体/映像単体)を学習した後、対応するペアデータで共同最適化するために音声・映像の統合モデルへ結合する。
  • ストリーミング生成に関して、従来の「まず双方向モデルを学習し、多段階の蒸留で因果生成器へ変換する」流れではなく、ネイティブな高速因果のオーディオ・ビデオ自己回帰モデルを直接学習することを提案している。
  • 主要な工夫として、少ステップ生成と多ステップ生成を単一の重み共有モデル内に統合し、自己蒸留を可能にすることで、学習時と推論時の整合性を高めている。
  • 実験では、約50サンプリングステップを要する強力な既存手法に対して、4〜8ステップだけで同等以上の性能を示し、効率と品質の双方で大きな利点が確認された。

Abstract

本研究では、長い時間範囲にわたる音声—映像の同期を可能にする、高速な自己回帰型オーディオビジュアル生成のための枠組み「Mutual Forcing」を提案します。提案手法は、2つの主要な課題、すなわち(1)音声—映像の同時モデリングと(2)高速な自己回帰生成に取り組みます。音声—映像の同時最適化を容易にするために、2段階の学習戦略を採用します。まず単一モダリティのジェネレータを学習し、その後、それらを結合して統合された音声—映像モデルとし、ペアデータに対する共同学習を行います。ストリーミング生成においては、既存のストリーミング蒸留パイプラインのように、まず双方向モデルを学習し、その後に複数段階の蒸留を通じてそれを因果(キャザル)生成器へ変換するのではなく、ネイティブな高速因果音声—映像モデルを直接訓練できるかどうかを問いかけます。これに対する答えがMutual Forcingです。Mutual Forcingは、ネイティブな自己回帰モデルに直接基づき、少ステップ生成と多ステップ生成を単一の重み共有モデル内に統合します。これにより、自己蒸留と、学習—推論整合性の向上を実現します。多ステップモードは自己蒸留によって少ステップモードを改善し、一方で少ステップモードは学習中に履歴コンテキストを生成して学習—推論整合性を高めます。これら2つのモードはパラメータを共有するため、単一モデル内で両者の効果が互いに強化されます。Self-Forcingのような先行手法と比較して、Mutual Forcingは追加の双方向教師モデルを不要にし、より柔軟な学習シーケンス長をサポートし、学習のオーバーヘッドを削減し、固定された教師ではなく実際のペアデータから直接モデルが改善できるようにします。実験の結果、Mutual Forcingは、約50ステップのサンプリングを必要とする強力なベースラインに対して、わずか4〜8ステップで一致、または上回ることを示し、効率と品質の両面で顕著な利点があることを実証しました。プロジェクトページは https://mutualforcing.github.io で利用できます。