EmbodiedLGR:軽量グラフ表現と検索を統合し、ロボットエージェントの意味空間メモリを実現

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、意味空間メモリをより効率的に構築・検索できるロボットエージェント「EmbodiedLGR-Agent」を提案し、視覚言語モデル(VLM)に基づくアーキテクチャを示している。
  • メモリはハイブリッド方式で構成され、パラメータ効率の高いVLMが対象物の位置などの低レベル情報を意味グラフに格納し、従来の検索拡張(RAG)により高レベルのシーン記述を保持する。
  • NaVQAデータセットでの評価では、推論とクエリ応答時間において身体化エージェントとしての最先端性能を達成し、全体のタスク精度も競争力を維持している。
  • さらに実機ロボットでの導入に成功し、VLMと検索パイプラインをローカル実行しながら、人とロボットのインタラクションにおける実用性を示した。

概要: エージェント型人工知能をロボティクスへ適用する世界が進化するにつれ、記憶や観測を効率的に構築し、検索できるエージェントの必要性が高まっています。複雑な環境で動作するロボットは、現在の作業状況のニーモニック表現を活用することで、有益な人とロボットの相互作用を可能にするためのメモリ構造を構築しなければなりません。ロボットとやり取りする人は、身体を備えたエージェントが、場所、出来事、または物体に関する情報を提供することを期待するかもしれません。これは、応答性があると認識されるために、人のような推論時間の範囲内でエージェントが正確な回答を提示することを要求します。私たちは、ロボット用の光グラフ検索エージェント(Embodied Light Graph Retrieval Agent; EmbodiedLGR-Agent)を提案します。EmbodiedLGR-Agentは、視覚言語モデル(VLM)駆動のエージェントアーキテクチャであり、ロボットが作業する環境を高密度かつ効率的な表現として構築します。EmbodiedLGR-Agentは、パラメータ効率の高いVLMに基づくハイブリッドな構築・検索アプローチによって、環境の効率的なメモリ表現の必要性に直接対応します。このアプローチでは、意味グラフ上で物体とその位置に関する低レベル情報を保存しつつ、従来の検索拡張型アーキテクチャによって、観測したシーンの高レベルな記述を維持します。EmbodiedLGR-Agentは、広く知られたNaVQAデータセットで評価され、推論および問い合わせ(クエリ)時間において身体化(embodied)エージェントの最先端性能を達成しながら、グローバルなタスクにおいても現在の最先端手法に対して競争力のある精度を維持しています。さらに、EmbodiedLGR-Agentは物理ロボット上での実デプロイに成功しており、視覚言語モデルと構築・検索のパイプラインをローカルで実行しつつ、人とロボットの相互作用を通じて現実世界の文脈で実用的な有用性を示しました。