生成・分析・洗練:MLLMのメタ推論によるトレーニング不要な音源ローカライゼーション

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、対比的特徴マッチングのみに頼るのではなく、マルチモーダル大規模言語モデル(MLLM)の内在的なマルチモーダル推論能力を活用する、トレーニング不要な音源ローカライゼーションの枠組みを提案する。
  • 生成–分析–洗練(GAR)の3段階パイプラインを提案し、まずバウンディングボックスと音声の分類を生成し、その後、オープンセットのロールタグ付けとアンカー投票を用いて音声・視覚の整合性を評価する。
  • 洗練ステップでは、不要な更新を避けるために適応的ゲーティングを用い、複雑な音響環境における信頼性の向上を目指す。
  • 単一音源および複数音源のベンチマークで競争力のあるローカライゼーション性能が示されており、著者らは提供されたGitHubリポジトリを通じてソースコードを公開している。
  • 本研究は、従来の自己教師あり音源ローカライゼーション手法に欠けていた重要な要素として、明示的な推論と検証を位置づけ、MLLMがそれらの能力を提供し得ることを実証する。

Abstract

音源定位タスクは、音声と視覚のモダリティ間の相関を活用することで、音を発する物体の位置を特定することを目的とします。既存のほとんどのSSL手法は、対比学習に基づく特徴マッチングに依存していますが、明示的な推論や検証が欠けているため、複雑な音響シーンにおける有効性が制限されています。人間のメタ認知プロセスに着想を得て、本研究ではマルチモーダル大規模言語モデル(MLLM)の内在的な推論能力を活用する、学習不要(training-free)のSSLフレームワークを提案します。本手法のGeneration-Analysis-Refinement(GAR)パイプラインは3つの段階から構成されます。生成(Generation)は初期のバウンディングボックスと音声の分類を生成し、分析(Analysis)はオープンセットの役割タグ付けとアンカー投票を通じて、音声-視覚の整合性を定量化します。そして洗練(Refinement)では、不必要な調整を防ぐために適応的なゲーティングを適用します。単一ソースおよびマルチソースのベンチマークに関する大規模な実験により、競争力のある性能が示されました。ソースコードは https://github.com/VisualAIKHU/GAR-SSL で公開されています。