V2M-Zero: ゼロペア時間整合ビデオから音楽生成

arXiv cs.CV / 2026/3/12

💬 オピニオンModels & Research

要点

  • V2M-Zeroは、各モダリティ内のイベントカーブを介して共有される時間的構造を捉えることで、ビデオに対する時間整合の音楽を出力するゼロペアのビデオ-音楽生成アプローチを導入します。
要旨: 動画イベントと時間的に一致した音楽を生成することは、細粒度の時間制御を欠く既存のテキスト-音楽生成モデルにとって困難です。V2M-Zeroは、ビデオに時間的整合をもつ音楽を出力するゼロペアのビデオ-音楽生成アプローチです。我々の方法は、時間的同期には“何が変化するか”ではなく“いつ・どれくらい変化が起こるか”を合わせることが重要である、という鍵となる観察に動機づけられています。音楽イベントと視覚イベントは意味的には異なりますが、各モダリティ内に独立して捕捉できる共通の時間的構造を示します。我々は、事前学習済みの音楽エンコーダとビデオエンコーダを用いたモーダリティ内の類似性から計算されるイベントカーブを通じてこの構造を捉えます。各モダリティ内の時間的変化を独立して測定することにより、これらのカーブはモダリティ間で比較可能な表現を提供します。これにより、単純な訓練戦略が可能になります。音楽イベントカーブでテキスト-音楽モデルを微調整し、推論時には跨モーダル監督やペアデータなしで動画イベントカーブに置換します。OES-Pub、MovieGenBench-Music、および AIST++ において、V2M-Zeroはペアデータを用いたベースラインより顕著な改善を達成します:音質5–21%向上、意味的整合性13–15%向上、時間的同期21–52%向上、ダンス動画でのビート整合性28%向上。大規模なクラウドソーシングによる主観リスニングテストでも同様の結果が得られました。総じて、時間的整合は、同一モダリティ内の特徴を用いて得られるもので、ペアデータを用いた跨モダル監督付き学習に頼るよりも、ビデオから音楽への生成に有効であることを示しています。結果は https://genjib.github.io/v2m_zero/ に公開されています。