連続環境におけるセマンティック音響・視覚ナビゲーション

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • 著者らは連続環境におけるセマンティック音響-視覚ナビゲーション(SAVN-CE)を提案し、エージェントが離散的な格子位置や事前計算されたルームインパルス応答に依存するのではなく、時間的・空間的に整合した音響-視覚観測を伴って完全な3D空間をナビゲートできるようにする。
  • 彼らは空間的および意味的ゴール表現を共同でエンコードし、自己運動の手掛かりと歴史的文脈を統合して記憶を補強したゴール推論を可能にする、多模態トランスフォーマー MAGNet を提案する。
  • 包括的な実験により、MAGNet は最先端手法を著しく上回り、成功率を最大で12.1ポイントの絶対改善と、短時間の音に対する頑健性および長距離ナビゲーションへの適応性を示す。
  • 著者らは再現性と今後の研究を促進するため、コードを https://github.com/yichenzeng24/SAVN-CE に公開する。

概要:
音響と視覚の手掛かりの両方を活用することで、具現化されたエージェントが音を発するターゲットへ向かってナビゲートできるようにします。しかし、ほとんどの既存のアプローチは、バイノーラル音響再現のために事前計算された室インパルス応答(RIR)に依存しており、エージェントを離散的な格子位置に制限し、空間的に不連続な観測を招きます。より現実的な設定を確立するために、連続環境における意味的音響-視覚ナビゲーション(SAVN-CE)を導入します。ここではエージェントは3D空間を自由に移動し、時間的・空間的に一貫した音響-視覚ストリームを知覚します。この設定では、ターゲットが断続的に静かになったり、音を完全に発しなくなることがあり、エージェントは目標情報を失うことがあります。この課題に対処するため、空間的および意味的な目標表現を共同でエンコードし、歴史的文脈と自己運動の手掛かりを統合して、記憶を強化した目標推論を可能にするマルチモーダル・トランスフォーマーベースのモデル MAGNet を提案します。包括的な実験により、MAGNet が最先端の手法を著しく上回ることを示し、成功率で最大12.1%の絶対的改善を達成します。これらの結果は、短時間の音響信号や長距離のナビゲーションシナリオに対する頑健性も示しています。コードは https://github.com/yichenzeng24/SAVN-CE に公開されています。