ESCAPE:長期ホライズンのモバイルマニピュレーションのためのエピソード型空間記憶と適応的実行ポリシー

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の身体性AI手法に共通するナビゲーション失敗と操作失敗を同時に扱う、長期ホライズンのモバイルマニピュレーションのためのアプローチESCAPEを提案する。
  • ESCAPEは、時空間融合によるマッピングモジュールにより持続的な3D空間記憶を構築し、メモリに駆動されたターゲット・グラウンディングモジュールによってインタラクションマスクを生成する。
  • 適応的実行ポリシーを用い、長期タスクにわたって機会的なターゲットを捉えるために、「事前的な大域ナビゲーション」と「反応的な局所マニピュレーション」を切り替える。
  • ESCAPEは、ALFREDベンチマークで最先端の結果を報告しており、手順に沿った場合の成功率は65.09%(test seen)および60.79%(test unseen)である。
  • また、本手法は冗長な探索を減らすことで頑健性も高く、長期タスクに対して詳細なガイダンスなしでも61.24% / 56.04%の成功を達成している。

Abstract

複雑な屋内環境における体(ボディ)を持つAIにとって、堅牢な性能でナビゲーションと操作を協調させることは不可欠です。しかし、タスクが長い時間軸に及ぶほど、既存手法は壊滅的忘却、空間的一貫性の欠如、そして硬直した実行のためにしばしば困難に直面します。これらの問題に対処するため、我々はESCAPE(Episodic Spatial Memory Coupled with an Adaptive Policy for Execution:実行のための適応的ポリシーと結合したエピソード的空間メモリ)を提案します。これは、知覚・グラウンディング・実行を密に結合したワークフローにより動作します。堅牢な知覚のために、ESCAPEは、深度を用いない永続的な3D空間メモリを自己回帰的に構築するSpatio-Temporal Fusion Mappingモジュールと、正確なインタラクション・マスク生成のためのMemory-Driven Target Groundingモジュールを備えています。柔軟な行動を実現するために、我々のAdaptive Execution Policyは、機会を捉えるターゲットに対して、先回りした大域ナビゲーションと、状況に応じた局所操作を動的にオーケストレーションします。ESCAPEは、ALFREDベンチマークで最先端の性能を達成し、ステップごとの指示を用いたテスト済み環境および未見環境において、それぞれ65.09%および60.79%の成功率を記録します。冗長な探索を削減することで、ESCAPEは経路長に重み付けした指標において大幅な改善を実現し、長い時間軸のタスクに対して詳細な誘導がない場合でも、堅牢な性能(61.24% / 56.04%)を維持します。