DIAL：エンドツーエンドVLAに向けた潜在世界モデリングによる意図と行動の分離

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、差分可能な潜在意図ボトルネックにより、高レベルの意図から低レベルのモータ実行を分離するVision-Language-Action（VLA）のための枠組み「DIAL」を提案する。
VLMベースの「System-2」が、VLMの特徴空間における潜在的な視覚的予見を予測することで潜在世界モデリングを実行し、一方で軽量な「System-1」ポリシーが、その意図に現在の観測を加えて、潜在逆ダイナミクスを通じてロボットの行動へ変換する。
事前学習済みVLMへの不安定化を招く更新を防ぐため、DIALは二段階の学習戦略を用いる。すなわち、まず地上真値の将来表現に導かれた分離学習のウォームアップ段階を行い、その後にエンドツーエンドの共同最適化を実施する。
RoboCasa GR1のテーブルトップベンチマークでの実験では最先端の性能を示し、従来手法よりも10分の1のデモンストレーションで済むことが報告されている。
DIALは、異種の人間デモンストレーションから物理的に根付いた操作（マニピュレーション）の事前知識を学習し、実世界のヒューマノイドロボット展開において、未見の対象物や構成に対する頑健なゼロショット汎化を達成するという。

Abstract

Vision-Language-Action（VLA）モデルの開発は、事前学習済みのVision-Language Models（VLM）によって大きく加速されてきました。しかし、既存の多くのエンドツーエンド型VLAは、VLMを主にマルチモーダルエンコーダとして扱い、視覚と言語の特徴を低レベルの行動へ直接写像します。このパラダイムは、VLMの高レベルな意思決定における可能性を十分に活用できておらず、また学習の不安定さを招き、豊かなセマンティック表現が劣化してしまうことが頻繁にあります。これらの制約に対処するために、我々はDIALというフレームワークを導入します。これは、差分可能な潜在意図ボトルネックによって、高レベルの意思決定と低レベルの運動実行を橋渡しします。具体的には、VLMベースのSystem-2が、VLMのネイティブな特徴空間内で潜在的な視覚的先読みを合成することで、潜在世界モデリングを実行します。この先読みは、意図を明示的に符号化し、構造的なボトルネックとして機能します。次に、軽量なSystem-1ポリシーが、この予測された意図と現在の観測を、潜在逆ダイナミクスによって統合的に復号し、精密なロボット行動を生成します。最適化の安定性を確保するために、我々は二段階の学習パラダイムを採用します。すなわち、まずはデカップルされたウォームアップ段階として、System-2が潜在未来の予測を学び、System-1が、統一された特徴空間内でグラウンドトゥルースの未来ガイダンスをもとに運動制御を学習します。その後、エンドツーエンドでのシームレスな共同最適化を行います。これにより、行動を意識した勾配が制御された形でVLMバックボーンを洗練し、事前学習済みの知識を保持できます。RoboCasa GR1 Tabletopベンチマークに関する大規模な実験により、DIALは新たな最先端状態（state-of-the-art）を確立し、従来手法より10倍少ないデモンストレーションでより高い性能を達成することが示されました。さらに、異種の人間デモンストレーションを活用することで、DIALは物理的に根ざした操作の事前知識を学習し、ヒト型ロボットによる実世界での展開中に、未見の対象物や新しい構成に対して堅牢なゼロショット汎化を示します。