DIAL:エンドツーエンドVLAに向けた潜在世界モデリングによる意図と行動の分離
arXiv cs.RO / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、差分可能な潜在意図ボトルネックにより、高レベルの意図から低レベルのモータ実行を分離するVision-Language-Action(VLA)のための枠組み「DIAL」を提案する。
- VLMベースの「System-2」が、VLMの特徴空間における潜在的な視覚的予見を予測することで潜在世界モデリングを実行し、一方で軽量な「System-1」ポリシーが、その意図に現在の観測を加えて、潜在逆ダイナミクスを通じてロボットの行動へ変換する。
- 事前学習済みVLMへの不安定化を招く更新を防ぐため、DIALは二段階の学習戦略を用いる。すなわち、まず地上真値の将来表現に導かれた分離学習のウォームアップ段階を行い、その後にエンドツーエンドの共同最適化を実施する。
- RoboCasa GR1のテーブルトップベンチマークでの実験では最先端の性能を示し、従来手法よりも10分の1のデモンストレーションで済むことが報告されている。
- DIALは、異種の人間デモンストレーションから物理的に根付いた操作(マニピュレーション)の事前知識を学習し、実世界のヒューマノイドロボット展開において、未見の対象物や構成に対する頑健なゼロショット汎化を達成するという。
関連記事

Black Hat Asia
AI Business

裏カツ170日目!アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター
note

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note

【AIパートナー】本音漏れがちランキング🥇🥈🥉
note

🖥️😳😲Geminiが進化している?!しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句
note