HiF-VLA:運動表現による視覚言語行動モデルのための「回顧・洞察・予見」
arXiv cs.RO / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision-Language-Action(VLA)モデルがマルコフ性を仮定し、長期ホライズン課題に対して現在の観測のみを用いることにより、「時間的な近視(temporal myopia)」に陥りがちであると主張している。
- HiF-VLAは、時間的文脈と世界のダイナミクスを表すコンパクトで有益な表現として運動を導入し、静的なピクセルノイズを除去しつつ状態間の変化を捉える。
- 提案フレームワークは、行動生成の際に、回顧(過去のダイナミクス)、洞察(統合された過去の文脈)、予見(将来の推移)を用いて双方向の時間的推論を行う。
- HiF-VLAは、回顧によって調調整される(hindsight-modulated)ジョイント・エキスパートにより、「行動しながら考える(think-while-acting)」パラダイムを支え、長期ホライズンの操作における一貫性を向上させる。
- 実験により、LIBERO-LongおよびCALVIN ABC-Dのベンチマーク、ならびに実世界の長期ホライズン操作において、強力なベースラインに対する性能向上が示される。また、追加の推論遅延はごくわずかである。




