MMAudioReverbs:動画誘導による音響モデリングで残響除去と部屋のインパルス応答推定を行う

arXiv cs.CV / 2026/5/4

💬 オピニオンModels & Research

要点

  • 本論文は、既存の動画から音声へのモデルが妥当な音を生成できる一方で、残響や部屋のインパルス応答(RIR)を明示的にモデル化しておらず、部屋の音響効果の制御が難しいと主張しています。
  • MMAudioReverbsは、最先端のV2Aモデル(MMAudio)を事前知識として活用し、ネットワーク構造を変更せずに物理に基づいた部屋音響処理を可能にする手法を提案しています。
  • MMAudioReverbsは、残響除去とRIR推定の両方を統一的な枠組みで扱い、小規模データセットで微調整します。
  • 実験では、音声の手がかりと映像の手がかりが、物理的な部屋の音響のタイプに応じて得意分野が異なることが示されました。
  • これらの結果は、基盤となるV2Aモデルが純粋な意味的な音生成だけでなく、物理に基づいた部屋の音響分析に利用できることを示唆しています。

Abstract

近年の映像から音声への変換(V2A)モデルは、視覚入力から意味的にもっともらしい音を合成する点で優れた性能を示してきましたが、残響やルームインパルス応答(RIR)といった室内音響効果を明示的にはモデル化していないため、これらの効果に対する制御性が限られています。とはいえ、本研究では、こうしたV2Aモデルが、空間音響とそれに対応する視覚的手がかりとの関係についての意味論的知識を暗黙的に持っているのではないか、と仮説を立てます。本論文では、上記の目的のためにV2Aモデルを再検討し、事前学習済みモデルを物理的に根拠づけられた室内音響処理の事前分布(prior)として利用する方法を提案します。最先端のV2Aモデルの1つであるMMAudioに基づき、ネットワーク構造の改変なしに、(i) 残響除去 と (ii) ルームインパルス応答(RIR)推定 を扱う統一的な枠組みであるMMAudioReverbsを提案し、少量データセットで微調整します。実験結果により、物理的な室内音響の種類に応じて、音声および視覚の手がかりがそれぞれ有利になることが示されました。これは、基盤となるV2Aモデルを、物理的に根拠づけられた室内音響の解析に用い得ることを示唆しています。