MMAudio-LABEL:無音動画から音声生成で行うオーディオイベントラベリング

arXiv cs.CV / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、無音動画から音声を生成するだけでなく、音の種類とタイミングを示すフレーム整合のサウンドイベントラベルも同時に予測するMMAudio-LABELを提案している。
  • 生成してから検出する「事後処理」型の二段階パイプラインは、誤りが累積しやすいため限界があるとし、イベントを意識した共同学習アプローチを導入している。
  • MMAudio-LABELは基盤となる音声生成モデルをバックボーンに用い、音声とサウンドイベント予測を動画フレームに整合させて同時に出力する。
  • Greatest Hitsデータセットで、オンセット検出(46.7%→75.0%)と17クラスのマテリアル分類(40.6%→61.0%)がベースラインより大幅に改善した。
  • 著者らは、音声合成とイベント予測を共同で学習することで、高品質であるだけでなく解釈可能で実用的なビデオから音声への生成が可能になると結論づけている。

Abstract

マルチモーダル生成の最近の進歩により、無音動画から高品質な音声を生成できるようになってきました。音の制作などの実用的な応用では、生成された音声だけでなく、音の種類とタイミングを詳述する明示的なサウンドイベントラベルも要求されます。ひとつの単純なアプローチは、生成された音声に対して標準的なサウンドイベント検出を適用することです。しかし、この事後処理パイプラインは本質的に限界があり、誤りが累積しやすいという問題があります。この制約に対処するために、本稿ではMMAudio-LABEL(LAtent-Based Event Labeling)を提案します。これは、基盤となる音声生成モデルをバックボーンとして構築された、イベントを意識した音声生成フレームワークです。無音動画から、音声とフレームに整合したサウンドイベント予測を同時に生成します。我々は、本手法を「Greatest Hits」データセットで、オンセット検出と17クラスのマテリアル(素材)分類について評価しました。本手法は、ベースラインに対してオンセット検出の精度を46.7%から75.0%へ、マテリアル分類の精度を40.6%から61.0%へと向上させます。これらの結果は、音声生成とイベント予測を共同で学習することで、より解釈可能で実用的な動画から音声への合成が可能になることを示唆しています。