PALM:アフォーダンス推論による長期ロボットマニピュレーションのための進捗認識型ポリシー学習

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • PALMは、相互作用中心のアフォーダンス推論と明示的なサブタスク進捗トラッキングを追加することで、長期・多段階のロボットマニピュレーションを改善する新しいビジョン言語アクション(VLA)フレームワークである。
  • 本手法は、物体の関連性、接触幾何、空間配置、運動ダイナミクスといった複数の補完的なアフォーダンス表現を蒸留し、ビジュオモータ制御のためのタスク関連アンカーとして機能させる。
  • PALMは、サブタスク内の進捗を連続量として予測することで、同じ行動の繰り返し、手順の見落とし、早すぎる終了といった実行失敗を減らし、サブタスク間のより滑らかな遷移を可能にする。
  • 広範なシミュレーションおよび実環境ベンチマークでの実験により、PALMはベースラインを上回り、LIBERO-LONGで成功率91.8%を達成し、CALVIN(ABC→D)では平均長さで12.5%の改善を示し、さらに3つの長期汎化設定において実環境ベースラインに対して約2倍の向上が見られた。

Abstract

近年の視覚-言語-行動(VLA)モデルの進歩はロボット操作に期待を示しているものの、長い時間軸にまたがるマルチステップ課題では依然として苦戦しています。既存手法には、課題に関連する相互作用の手がかりを特定したり、サブタスク内で進捗を追跡したりできる内部推論メカニズムが欠けているため、反復動作、手順の取りこぼし、早期終了といった重大な実行エラーにつながります。これらの課題に対処するために、私たちはPALMを提案します。PALMは、相互作用中心のアフォーダンス推論とサブタスク進捗の手がかりに基づいて方策学習を構造化するVLAフレームワークです。PALMは、物体の関連性、接触の幾何、空間上の配置、運動ダイナミクスを捉える補完的なアフォーダンス表現を蒸留し、それらを視運動制御の課題に関連するアンカーとして機能させます。さらに長時間軸での実行を安定化するために、PALMはサブタスク内の進捗を連続的に予測し、スムーズなサブタスク遷移を可能にします。広範なシミュレーションと現実環境での実験において、PALMは一貫してベースラインを上回り、LIBERO-LONGで91.8%の成功率を達成しました。また、CALVIN ABC->Dでは平均長が12.5%改善し、さらに3つの長時間軸の汎化設定において現実環境のベースラインに対して2倍の改善を示しました。