連続環境におけるセマンティック音響・視覚ナビゲーション

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

共有:

要点

著者らは連続環境におけるセマンティック音響-視覚ナビゲーション（SAVN-CE）を提案し、エージェントが離散的な格子位置や事前計算されたルームインパルス応答に依存するのではなく、時間的・空間的に整合した音響-視覚観測を伴って完全な3D空間をナビゲートできるようにする。
彼らは空間的および意味的ゴール表現を共同でエンコードし、自己運動の手掛かりと歴史的文脈を統合して記憶を補強したゴール推論を可能にする、多模態トランスフォーマー MAGNet を提案する。
包括的な実験により、MAGNet は最先端手法を著しく上回り、成功率を最大で12.1ポイントの絶対改善と、短時間の音に対する頑健性および長距離ナビゲーションへの適応性を示す。
著者らは再現性と今後の研究を促進するため、コードを https://github.com/yichenzeng24/SAVN-CE に公開する。

概要：
音響と視覚の手掛かりの両方を活用することで、具現化されたエージェントが音を発するターゲットへ向かってナビゲートできるようにします。しかし、ほとんどの既存のアプローチは、バイノーラル音響再現のために事前計算された室インパルス応答（RIR）に依存しており、エージェントを離散的な格子位置に制限し、空間的に不連続な観測を招きます。より現実的な設定を確立するために、連続環境における意味的音響-視覚ナビゲーション（SAVN-CE）を導入します。ここではエージェントは3D空間を自由に移動し、時間的・空間的に一貫した音響-視覚ストリームを知覚します。この設定では、ターゲットが断続的に静かになったり、音を完全に発しなくなることがあり、エージェントは目標情報を失うことがあります。この課題に対処するため、空間的および意味的な目標表現を共同でエンコードし、歴史的文脈と自己運動の手掛かりを統合して、記憶を強化した目標推論を可能にするマルチモーダル・トランスフォーマーベースのモデル MAGNet を提案します。包括的な実験により、MAGNet が最先端の手法を著しく上回ることを示し、成功率で最大12.1％の絶対的改善を達成します。これらの結果は、短時間の音響信号や長距離のナビゲーションシナリオに対する頑健性も示しています。コードは https://github.com/yichenzeng24/SAVN-CE に公開されています。

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

連続環境におけるセマンティック音響・視覚ナビゲーション

要点

関連記事

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer