階層的な認知とコンテキスト対応探索を備えた、デプロイ可能な身体性ビジョン・ランゲージナビゲーションシステム

arXiv cs.RO / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、計算量・メモリ・エネルギー・リアルタイム実行などの厳しい制約下で、身体性のあるビジョン・ランゲージ・ナビゲーションに高い推論能力と効率的な運用を両立させることを目的としている。
提案手法はシステムを3つの非同期モジュールに分解し、リアルタイム知覚、空間・意味の統合のためのメモリ統合、高レベル意思決定のための推論モジュールとして構成している。
存在するシーン情報を符号化するために階層的な「認知メモリグラフ」を段階的に構築し、そのグラフをサブグラフへ分解することでVLM（ビジョン・ランゲージ・モデル）による推論を可能にする。
ナビゲーションの効率と精度を高めるために、認知メモリグラフを活用して探索問題をコンテキスト対応のWeighted Traveling Repairman Problem（WTRP）として定式化し、注視点（viewpoint）の重み付き待機時間を最小化する。
シミュレーションおよび実機ロボットでの実験により、既存のVLN手法よりもナビゲーション成功率と効率が向上しつつ、リソース制約のあるハードウェア上でもリアルタイム性能を維持できることが示されている。

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to

Reddit r/LocalLLaMA