Pixel Motion Diffusion はロボット制御に必要なものだ

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この記事では、言語条件付きのロボット操作のための統一的な拡散ベースのフレームワークである DAWN（Diffusion is All We Need）を紹介し、高レベルの運動意図から低レベルのロボット動作へと、構造化されたピクセル運動表現を介して接続する。
高レベルおよび低レベルのコントローラの両方を拡散プロセスとしてモデル化することで、解釈可能な中間の運動アブストラクションを備えた、エンドツーエンドで学習可能なシステムを実現する。
DAWN は、マルチタスクのロボット学習に関する CALVIN ベンチマークで最先端の性能を達成したと報告されており、さらに MetaWorld でも強い結果を示している。
著者らは、実世界への転移について、限られた実データしかないにもかかわらず、最小限の微調整のみで信頼性のある転移が可能であることを示し、シミュレーションから現実へのドメインギャップに対処する。
本研究は、拡散モデリングと運動中心の視覚的アブストラクションを組み合わせたアプローチを、将来のロボット学習システムに向けたスケーラブルで頑健なベースラインとして位置づけている。

概要: 我々は、DAWN（Diffusion is All We Need for robot control）を提示する。DAWNは、言語による条件付けを伴うロボット操作のための統一的な拡散ベースの枠組みであり、高レベルの運動意図と低レベルのロボット行動を、構造化されたピクセル運動表現を介して橋渡しする。DAWNでは、高レベル・低レベルの双方の制御器を拡散過程としてモデル化し、その結果として、解釈可能な中間運動の抽象化を伴う、完全に学習可能でエンドツーエンドのシステムが得られる。DAWNは難しいCALVINベンチマークにおいて最先端の結果を達成し、複数タスクでの強力な性能を示す。さらにMetaWorldにおいても、その有効性を裏付ける。シミュレーションと現実の間には大きなドメインギャップがあり、また現実世界のデータが限られているにもかかわらず、最小限の微調整のみで信頼性のある現実への転移を実証し、ロボット制御における拡散ベースの運動抽象化の実用的な妥当性を示す。我々の結果は、拡散モデリングと運動中心の表現を組み合わせることが、スケーラブルで頑健なロボット学習の強力なベースラインとなることを示している。プロジェクトページ: https://eronguyen.github.io/DAWN/