V2M-Zero: ゼロペア時間整合ビデオから音楽生成

arXiv cs.CV / 2026/3/12

💬 オピニオンModels & Research

共有:

要点

V2M-Zeroは、各モダリティ内のイベントカーブを介して共有される時間的構造を捉えることで、ビデオに対する時間整合の音楽を出力するゼロペアのビデオ-音楽生成アプローチを導入します。

要旨: 動画イベントと時間的に一致した音楽を生成することは、細粒度の時間制御を欠く既存のテキスト-音楽生成モデルにとって困難です。V2M-Zeroは、ビデオに時間的整合をもつ音楽を出力するゼロペアのビデオ-音楽生成アプローチです。我々の方法は、時間的同期には“何が変化するか”ではなく“いつ・どれくらい変化が起こるか”を合わせることが重要である、という鍵となる観察に動機づけられています。音楽イベントと視覚イベントは意味的には異なりますが、各モダリティ内に独立して捕捉できる共通の時間的構造を示します。我々は、事前学習済みの音楽エンコーダとビデオエンコーダを用いたモーダリティ内の類似性から計算されるイベントカーブを通じてこの構造を捉えます。各モダリティ内の時間的変化を独立して測定することにより、これらのカーブはモダリティ間で比較可能な表現を提供します。これにより、単純な訓練戦略が可能になります。音楽イベントカーブでテキスト-音楽モデルを微調整し、推論時には跨モーダル監督やペアデータなしで動画イベントカーブに置換します。OES-Pub、MovieGenBench-Music、および AIST++ において、V2M-Zeroはペアデータを用いたベースラインより顕著な改善を達成します：音質5–21%向上、意味的整合性13–15%向上、時間的同期21–52%向上、ダンス動画でのビート整合性28%向上。大規模なクラウドソーシングによる主観リスニングテストでも同様の結果が得られました。総じて、時間的整合は、同一モダリティ内の特徴を用いて得られるもので、ペアデータを用いた跨モダル監督付き学習に頼るよりも、ビデオから音楽への生成に有効であることを示しています。結果は https://genjib.github.io/v2m_zero/ に公開されています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/12Dailyインサイトを見る →

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

V2M-Zero: ゼロペア時間整合ビデオから音楽生成

要点

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer