MMAudioReverbs:動画誘導による音響モデリングで残響除去と部屋のインパルス応答推定を行う
arXiv cs.CV / 2026/5/4
💬 オピニオンModels & Research
要点
- 本論文は、既存の動画から音声へのモデルが妥当な音を生成できる一方で、残響や部屋のインパルス応答(RIR)を明示的にモデル化しておらず、部屋の音響効果の制御が難しいと主張しています。
- MMAudioReverbsは、最先端のV2Aモデル(MMAudio)を事前知識として活用し、ネットワーク構造を変更せずに物理に基づいた部屋音響処理を可能にする手法を提案しています。
- MMAudioReverbsは、残響除去とRIR推定の両方を統一的な枠組みで扱い、小規模データセットで微調整します。
- 実験では、音声の手がかりと映像の手がかりが、物理的な部屋の音響のタイプに応じて得意分野が異なることが示されました。
- これらの結果は、基盤となるV2Aモデルが純粋な意味的な音生成だけでなく、物理に基づいた部屋の音響分析に利用できることを示唆しています。



