HiF-VLA:運動表現による視覚言語行動モデルのための「回顧・洞察・予見」

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Vision-Language-Action(VLA)モデルがマルコフ性を仮定し、長期ホライズン課題に対して現在の観測のみを用いることにより、「時間的な近視(temporal myopia)」に陥りがちであると主張している。
  • HiF-VLAは、時間的文脈と世界のダイナミクスを表すコンパクトで有益な表現として運動を導入し、静的なピクセルノイズを除去しつつ状態間の変化を捉える。
  • 提案フレームワークは、行動生成の際に、回顧(過去のダイナミクス)、洞察(統合された過去の文脈)、予見(将来の推移)を用いて双方向の時間的推論を行う。
  • HiF-VLAは、回顧によって調調整される(hindsight-modulated)ジョイント・エキスパートにより、「行動しながら考える(think-while-acting)」パラダイムを支え、長期ホライズンの操作における一貫性を向上させる。
  • 実験により、LIBERO-LongおよびCALVIN ABC-Dのベンチマーク、ならびに実世界の長期ホライズン操作において、強力なベースラインに対する性能向上が示される。また、追加の推論遅延はごくわずかである。

Abstract

ビジョン・言語・アクション(VLA)モデルは、視覚的・言語的手がかりを行動へと結び付けることで、近年ロボットの操作を可能にしてきました。しかし、ほとんどのVLAはマルコフ性を仮定しており、現在の観測だけに依存するため、長い時間幅にわたる整合性を損なう「時間的な近視(temporal myopia)」の問題に悩まされています。本研究では、運動を時間的文脈と世界のダイナミクスをよりコンパクトで情報量の多い表現として捉えます。これにより、静的なピクセルレベルのノイズを除去しつつ、状態間の変化を捉えます。この観点から、HiF-VLAはVLAのための運動中心の世界モデルを備え、行動生成中に将来の進展に向けて時間的ダイナミクスを推論できるようにします。この考え方を発展させ、運動を用いた双方向の時間的推論を活用する統一フレームワークであるHiF-VLA(Hindsight, Insight, and Foresight for VLAs)を提案します。HiF-VLAは、過去のダイナミクスを「indsight(回顧)」の事前分布を通じて符号化し、「foresight(予見)」の推論によって未来の運動を予期し、さらに両者を「hindsight-modulated joint expert(回顧で調整された共同エキスパート)」で統合することで、長期ホライズンの操作に対する「think-while-acting(行動しながら考える)」パラダイムを実現します。その結果、HiF-VLAはLIBERO-LongおよびCALVIN ABC-Dのベンチマークにおいて強力なベースラインを上回りつつ、推論レイテンシの追加はほとんどありません。さらにHiF-VLAは、実世界の長期ホライズン操作タスクにおいて大幅な改善を達成しており、実用的なロボット環境における幅広い有効性を示しています。