STRNet：動的グラフ集約による時空間表現を用いた視覚ナビゲーション

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単純な視覚エンコーダと時間的プーリングを用いる近年の学習ベースの視覚ナビゲーション手法が抱える限界に取り組む。これらは、正確な行動および進捗予測に必要な微細な空間／時間構造を破棄してしまう可能性がある。
そこで、STRNetは、第一人称の画像系列と目標観測の双方から特徴を抽出し、専用の時空間融合モジュールを通じてそれらを統合する統一的な時空間表現フレームワークを提案する。
STRNetはフレームごとの空間グラフ推論を行いながら、ハイブリッドな時間シフトモジュールと、マルチレゾリューションの差分認識型畳み込みを組み合わせて時間的ダイナミクスを捉える。
実験ではナビゲーション性能の一貫した改善が報告されており、STRNetが目標条件付きロボット制御に対する汎用的な視覚バックボーンを提供できることが示唆される。
著者らはSTRNetの公開コードを提供しており、他の研究者が提案されたバックボーンおよび融合設計を再現し、さらに発展させることを可能にしている。