Anticipation-VLA:予測に基づくサブゴール生成で長期の身体的タスクを解決する

arXiv cs.RO / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Vision-Language-Action(VLA)モデルは言語と視覚入力からロボットの行動へ変換できますが、長期タスクでは時間経過とともに誤差が累積して失敗しやすいです。
  • 従来手法では固定の粒度でタスクをサブタスクに分解しますが、実行状態の複雑さが変化する状況に柔軟に追随できず、長期タスクでの頑健性が制限されます。
  • 本論文では、未来のサブゴールを予測モデルが適応的かつ再帰的に生成し、タスクのダイナミクスの変化に応じてサブゴールを更新することで、計画の信頼性を高めることを提案します。
  • さらに、Anticipation-VLAとして階層的フレームワークを提案し、予測に基づくサブゴール生成器で実行可能なゴールを作り、下位のゴール条件付きVLAポリシーを導きます。
  • シミュレーションと実機ロボティクスの実験では、適応的で再帰的なサブゴール生成が長期の身体的タスクにおける頑健性と有効性を高めることが示されています。

概要: Vision-Language-Action(VLA)モデルは、身体化された知能のための強力なパラダイムとして登場し、ロボットが自然言語の指示と現在の視覚入力に基づいてタスクを実行できるようにします。しかし、既存のVLAモデルは、誤りが累積することにより、長い時間軸を持つタスクでうまく機能できません。従来の手法ではタスクを、固定された粒度の下位タスクに分解しますが、実行状態の複雑さが変化しても適応できないため、長い時間軸を持つタスクにおける頑健性が制限されます。これを克服するために、将来のサブゴールを適応的かつ再帰的に生成する Anticipation Model(予測モデル)を提案します。このモデルはタスクが進行するにつれて継続的に適応し、変化するダイナミクスに応じて将来のサブゴールを調整することで、より信頼性の高い計画経路を可能にします。この考え方に基づき、Anticipation-VLA という階層型のVLAモデルを提案し、予測モデルを活用して、VLAポリシーの実行を導く実行可能なサブゴールを生成します。Anticipation-VLA は、高レベルのサブゴール生成のために Unified Multimodal Model(UMM)を微調整し、低レベルの行動実行のためにゴール条件付きVLAポリシーを用いて実装します。シミュレーション環境および実世界のロボットタスクの両方における実験により、Anticipation-VLA の有効性が示され、頑健なポリシー実行のために適応的かつ再帰的なサブゴール生成が重要であることが強調されます。