CodeGraphVLP:コードによるプランナーとセマンティックグラフ状態の融合による非マルコフVLM-アクションモデル

arXiv cs.RO / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CodeGraphVLPは、長期ホライズンで非マルコフな環境では、行動推論に必要な手掛かりが途中で隠れたり軌道の早い段階にしか現れなかったりするため、VLA(視覚・言語・行動)ロボティクスが前提とする“最新観測だけで十分”が崩れる問題に取り組みます。
  • 本フレームワークは、部分観測下でタスクに関わる実体と関係を保持する永続的なセマンティックグラフ状態と、実行可能なコードベースの階層プランナーを組み合わせ、サブタスク生成と進捗チェックを可能にします。
  • プランナーが出力するサブタスク指示と関連オブジェクトを用いて、注意を奪う要素を抑えた観測(clutter-suppressed observations)を構成し、VLA実行器の重要な証拠への視覚的な基準合わせを改善します。
  • 実世界の非マルコフなタスクで、強力なVLAベースラインや履歴を扱う派生手法よりもタスク完了率が向上し、さらにVLM-in-the-loopの計画よりも計画レイテンシを大幅に削減できることが示されています。
  • それぞれの構成要素の寄与を確かめるために広範なアブレーション研究も行われています。

概要: Vision-Language-Action(VLA)モデルは汎用的なロボット操作を約束しますが、一般に最新の観測さえあれば行動の推論に十分だと仮定する短い地平(ホライゾン)の方策として学習・導入されています。この仮定は、タスクに関わる証拠が遮蔽されたり、軌跡のより前の時点でしか現れなかったりする、非マルコフ的な長期(ロングホライゾン)タスクでは破綻します。また、散らかった環境や気を散らす要素によって、きめ細かな視覚的グラウンディングが脆くなります。私たちは、永続的なセマンティックグラフ状態と、実行可能なコードベースのプランナ、さらに進捗に導かれた視覚言語によるプロンプティングを組み合わせることで、信頼性の高い長期操作を可能にする階層型フレームワーク CodeGraphVLP を提案します。セマンティックグラフは、部分的な観測下でもタスクに関わる実体と関係を維持します。合成されたプランナは、このセマンティックグラフ上で実行され、効率的な進捗チェックを行い、サブタスクの指示とサブタスクに関連する対象物を出力します。私たちはこれらの出力を用いて、散乱を抑制した観測を構築し、重要な証拠に焦点を当てるように VLA 実行器を導きます。実世界の非マルコフ的タスクにおいて、CodeGraphVLP は強力な VLA ベースラインおよび履歴を有効化した派生に比べてタスク達成を改善し、VLM をループに組み込む計画(VLM-in-the-loop planning)と比べて計画のレイテンシを大幅に低減します。さらに、各コンポーネントの貢献を確認するために大規模なアブレーション研究も実施します。