音の空間ガイド付き融合による音声・視覚ナビゲーション

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、3D環境における音声・視覚ナビゲーションを対象とし、環境や音源が学習データを超えて変化する状況において、頑健なターゲット位置特定と経路計画に焦点を当てている。
「Audio Spatially-Guided Fusion（音の空間ガイド付き融合）」というアプローチを提案し、音の強度に基づく注意機構を用いてターゲットに関連する空間音響特徴を符号化する。
音声空間状態ガイド付き融合（Audio Spatial State Guided Fusion: ASGF）モジュールを導入し、多モーダル（音声と視覚）の特徴を動的に整列させ、適応的に融合する。
ReplicaおよびMatterport3Dでの実験により、「聞いたことのない」タスクにおいて一般化性能が向上することが示され、とりわけ従来見たことのない音源分布の下で顕著である。その結果、知覚上の不確実性やノイズに対する感度が低減されることが示唆される。

要旨: 音響・映像ナビゲーションとは、複雑な3次元環境において視覚情報と聴覚情報を利用するエージェントが、目標の位置特定と経路計画を達成することで、自律移動を実現することを指します。このタスクの中核的な課題は次の点にあります。すなわち、環境や音源が変化した状況に直面した際、エージェントが学習データへの依存からどのように脱却し、良好な汎化性能を備えた自律移動を実現できるか、ということです。こうした課題に対処するために、本研究では、音響・空間ガイド融合（Audio Spatially-Guided Fusion）による音響・映像ナビゲーション手法を提案します。まず、音響強度の注意機構を通じて、目標に関連する空間状態情報を適応的に抽出する音響空間特徴エンコーダを設計します。これに基づき、多モーダル特徴の動的なアライメントと適応的な融合を実現するためのAudio Spatial State Guided Fusion（ASGF）を導入し、知覚的不確実性に起因するノイズ干渉を効果的に軽減します。ReplicaおよびMatterport3Dデータセットに対する実験結果は、本手法が未視聴タスク（聞いたことのない課題）に対して特に有効であり、未知の音源分布下での汎化が向上することを示しています。