生成・分析・洗練:MLLMのメタ推論によるトレーニング不要な音源ローカライゼーション
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、対比的特徴マッチングのみに頼るのではなく、マルチモーダル大規模言語モデル(MLLM)の内在的なマルチモーダル推論能力を活用する、トレーニング不要な音源ローカライゼーションの枠組みを提案する。
- 生成–分析–洗練(GAR)の3段階パイプラインを提案し、まずバウンディングボックスと音声の分類を生成し、その後、オープンセットのロールタグ付けとアンカー投票を用いて音声・視覚の整合性を評価する。
- 洗練ステップでは、不要な更新を避けるために適応的ゲーティングを用い、複雑な音響環境における信頼性の向上を目指す。
- 単一音源および複数音源のベンチマークで競争力のあるローカライゼーション性能が示されており、著者らは提供されたGitHubリポジトリを通じてソースコードを公開している。
- 本研究は、従来の自己教師あり音源ローカライゼーション手法に欠けていた重要な要素として、明示的な推論と検証を位置づけ、MLLMがそれらの能力を提供し得ることを実証する。



