概要: 音視覚ナビゲーション(AVN)では、身体を備えたエージェントが、視覚と両耳(バイノーラル)音響の両方を利用して、音源へ向かって移動する必要があります。主要な課題は複雑な音響環境にあります。そこでは、両耳キューが間欠的に信頼できなくなることがあり、特にこれまで聞いたことのない音カテゴリへ一般化する際に顕著です。これに対処するために、本研究では、RAVN(Reliability-Aware Audio-Visual Navigation)を提案します。これは、音から得られる信頼性キューに基づいてクロスモーダル融合を条件付けし、音声入力と視覚入力の統合を動的に調整する枠組みです。RAVN は、幾何学的なプロキシ教師ありで訓練される Acoustic Geometry Reasoner(AGR)を導入します。異分散(ヘテロスケダスティック)なガウスの NLL(負の対数尤度)目的関数を用いることで、AGR は観測に依存した分散を実用的な信頼性キューとして学習し、推論時に幾何学的ラベルを必要としません。さらに、学習したキューをソフトゲートに変換して視覚特徴を変調し、それによってモーダル間の競合を緩和する Reliability-Aware Geometric Modulation(RAGM)も提案します。RAVN を、Replica と Matterport3D の両環境を用いて SoundSpaces で評価し、その結果、ナビゲーション性能が一貫して改善することが示されました。特に、難しい「聞いたことのない音」設定において顕著な頑健性が見られます。
信頼性を考慮した幾何学的フュージョンによる頑健な音響・視覚ナビゲーション
arXiv cs.AI / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、音響・視覚ナビゲーション(AVN)における課題を扱っており、とりわけエージェントがこれまで聞いたことのない音カテゴリに遭遇した際に、バイノーラル音響手がかりが断続的に信頼できなくなる点に焦点を当てている。
- 音に由来する信頼性の手がかりに基づいてモーダル間フュージョンを条件付けし、複雑な音響環境下で音響入力と視覚入力のバランスを動的に調整する枠組みRAVNを提案する。
- RAVNには、幾何学的な代理(プロキシ)による教師あり学習で訓練されたAcoustic Geometry Reasoner(AGR)が含まれており、異質分散(heteroscedastic)のガウス分布に対する負の対数尤度目的を用いることで、推論時に幾何学ラベルを必要とせず、観測に依存した分散を信頼性の手がかりとして学習する。
- さらに、学習した信頼性の手がかりをソフトゲートに変換し、視覚特徴を変調してモーダル間の競合を低減するReliability-Aware Geometric Modulation(RAGM)を導入する。
- ReplicaおよびMatterport3Dを用いたSoundSpacesベンチマークでの実験により、一貫したナビゲーション性能向上が示されており、とりわけ難しい「聞いたことのない音」への汎化設定において頑健性が改善される。



