トレース条件付きVLA計画による長期的マニピュレーション

arXiv cs.RO / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • LoHo-Manipは、短期ホライズンの視覚言語行動(VLA)ポリシーを、長期の複数ステップ指示追従へ拡張するためのモジュール型フレームワークで、タスク管理用のVLMを追加します。
  • マネージャーとエグゼキュータは分離されており、マネージャーは各ステップで「done+remaining」の軽量な言語メモリと「2Dキーポイント軌跡プロンプト」というビジュアルトレースを用いて進捗に応じた残り計画を予測します。
  • エグゼキュータVLAはレンダリングされたトレースに条件付けるように適応され、長期の意思決定をトレースに従う反復的な局所制御へと変換します。
  • 各ステップで更新されたトレースから再計画することで暗黙のクローズドループが形成され、失敗したステップが後続の出力に残り、手作りの回復ロジックや脆い視覚履歴バッファなしで自動的な継続・再計画が可能になります。
  • シミュレーションおよび実機のFrankaロボットでの実験により、長期成功率、頑健性、分布外汎化の面で有意な改善が、体験的計画やエンドツーエンドのマニピュレーションまで幅広く示されています。

要旨: 長期視野の操作は、視覚-言語-行動(VLA)ポリシーにとって依然として困難です。現実のタスクは、複数ステップであり、進捗に依存し、さらに実行エラーが累積すると脆くなります。私たちはLoHo-Manipを提示します。これは、専用のタスク管理VLMを用いて、短期視野のVLA実行を長期視野の命令追従へと拡張する、モジュール型フレームワークです。マネージャはエグゼキュータから切り離されており、後退ホライズン(receding-horizon)方式で呼び出されます。すなわち、現在の観測が与えられると、進捗を考慮した残り計画(remaining plan)を予測します。この残り計画は、(i) 軽量な言語メモリとして、明示的なdone+remainingの分割を伴うサブタスク系列、(ii) 目標へ向かう場所や次に接近すべき対象を示す、コンパクトな2Dキーポイント軌跡プロンプトである視覚トレース、の組み合わせで構成されます。エグゼキュータのVLAは、レンダリングされたトレースに条件付けするように適応されます。これにより、長期視野の意思決定を、トレースを追跡することで繰り返される局所制御へと変換します。重要なのは、各ステップで残り計画を予測することで、暗黙的なクローズドループが得られることです。失敗したステップはその後の出力に残り続け、トレースもそれに応じて更新されます。その結果、手作りのリカバリロジックや脆弱な視覚履歴バッファなしで、自動的に継続と再計画が可能になります。シミュレーションおよび実機のFrankaロボット上で、身体的な計画、長期推論、軌跡予測、エンドツーエンドの操作にまたがる大規模な実験により、長期的成功、頑健性、分布外一般化において大きな改善が示されます。プロジェクトページ: https://www.liuisabella.com/LoHoManip