MMAudio-LABEL:無音動画から音声生成で行うオーディオイベントラベリング
arXiv cs.CV / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、無音動画から音声を生成するだけでなく、音の種類とタイミングを示すフレーム整合のサウンドイベントラベルも同時に予測するMMAudio-LABELを提案している。
- 生成してから検出する「事後処理」型の二段階パイプラインは、誤りが累積しやすいため限界があるとし、イベントを意識した共同学習アプローチを導入している。
- MMAudio-LABELは基盤となる音声生成モデルをバックボーンに用い、音声とサウンドイベント予測を動画フレームに整合させて同時に出力する。
- Greatest Hitsデータセットで、オンセット検出(46.7%→75.0%)と17クラスのマテリアル分類(40.6%→61.0%)がベースラインより大幅に改善した。
- 著者らは、音声合成とイベント予測を共同で学習することで、高品質であるだけでなく解釈可能で実用的なビデオから音声への生成が可能になると結論づけている。



