概要: 双流トランスフォーマーアーキテクチャに基づく音声と映像の共同生成手法は、現在の研究における支配的なパラダイムとなっている。
事前学習済みの映像拡散モデルと音声拡散モデルを組み込み、クロスモーダル相互作用アテンションモジュールを併用することにより、最小限のトレーニングデータで高品質かつ時系列で同期した音声-映像コンテンツを生成できる。
この論文では、まず双流トランスフォーマー・パラダイムを再検討し、クロスモーダル相互作用を制御するゲーティング機構によって生じるモデルのマニフォールド変動、クロスモーダル注意によって導入されるマルチモーダル背景領域のバイアス、トレーニングおよび推論時のマルチモーダル分類器なしガイダンス(CFG)の不整合、さらには複数条件間の衝突といった限界を分析する。
これらの問題を緩和するため Cross-Modal Context Learning(CCL)を提案し、いくつかの慎重に設計されたモジュールを備えています。
Temporally Aligned RoPE and Partitioning (TARP) は、音声潜在表現と映像潜在表現の時間的整合を効果的に高める。
Cross-Modal Context Attention (CCA) モジュール内の Learnable Context Tokens (LCT) と Dynamic Context Routing (DCR) は、クロスモーダル情報の安定した無条件アンカーを提供し、異なる学習タスクに基づいて動的にルーティングすることで、モデルの収束速度と生成品質をさらに高める。
推論時には、Unconditional Context Guidance (UCG) が LCT によって提供される無条件サポートを活用し、さまざまな形態の CFG の実現を促進して訓練と推論の一貫性を向上させ、衝突をさらに緩和する。
包括的な評価を通じて、CCL は、最近の学術手法と比較して最先端の性能を達成しつつ、はるかに少ないリソースで済む。
クロスモーダル・コンテキスト学習による音声と動画の共同生成の改善
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クロスモーダル・コンテキスト学習(CCL)を提案し、ゲーティングによるモデル変動、クロスモーダルアテンションの偏り、CFGの不整合、複数条件間の衝突といったデュアルストリーム・トランスフォーマーの限界に対処しつつ、事前学習済みの動画拡散モデルと音声拡散モデルを活用して音声と動画の共同生成を改善する。
- 本手法は、音声と動画の潜在表現間の時間的整合性を高める Temporally Aligned RoPE and Partitioning (TARP) を導入し、Cross-Modal Context Attention (CCA) 内で Learnable Context Tokens(LCT)と Dynamic Context Routing(DCR)を用いて、安定した無条件アンカーとタスクを意識したルーティングを提供する。
- 推論時には Unconditional Context Guidance(UCG)が LCT からの無条件サポートを活用して、異なる CFG(Classifier-Free Guidance)設定間の訓練と推論の一貫性を向上させ、衝突を軽減する。
- 実証評価は、近年の手法よりも計算資源を大幅に削減しつつ、最先端の性能を示す。




