要旨: 拡散ベースのヴィジュオモータ方策はロボットの操作において良好な性能を示しますが、現在の手法は依然として画像生成スタイルのデコーダや多段階のサンプリングを引き継いでいます。私たちはこの設計を周波数領域の観点から再検討します。ロボットの行動(アクション)軌道は非常に滑らかで、エネルギーの大部分は、少数の低周波の離散コサイン変換(DCT)モードに集中しています。この構造のもとで、最適なノイズ除去器の誤差が、低周波部分空間の次元数と残留する高周波エネルギーによって上から有界であることを示します。これにより、逆過程のステップをほんの数回行った後にノイズ除去誤差が飽和することが示唆されます。さらに、行動のノイズ除去には、画像生成よりもはるかに単純なノイズ除去モデルが必要であることも示唆されます。この洞察に動機づけられ、Hydra-DP3(HDP3)を提案します。これは、ポケットスケールの3D拡散方策であり、軽量な Diffusion Mixer デコーダを備え、2ステップのDDIM推論をサポートします。合成実験により理論が検証され、2ステップのノイズ除去で十分であることが支持されます。さらに、RoboTwin2.0、Adroit、MetaWorld、ならびに実世界のタスクにおいて、HDP3は先行する3D拡散ベース方策のパラメータの1%未満という規模で、最先端の性能を達成し、推論レイテンシも大幅に低減します。
Hydra-DP3:周波数を意識した3D拡散ポリシーの適正サイズ化によるビジョモータ制御
arXiv cs.RO / 2026/5/5
📰 ニュースModels & Research
要点
- 本論文は、ロボットのアクショントラジェクトリが低周波のDCTモードに強く支配されるという周波数構造を活用し、画像生成向けの設計とは異なる方針で視覚運動ポリシーを設計できると主張している。
- 周波数領域の解析により、最適デノイサーの誤差が主に低周波サブスペースの次元と残留する高周波エネルギーで決まり、逆拡散ステップを数回行うとデノイジング誤差が飽和することを示している。
- この洞察に基づき、Hydra-DP3(HDP3)を提案し、軽量なDiffusion Mixerデコーダと2ステップDDIM推論を可能にする「ポケットスケール」の3D拡散ポリシーを実装している。
- 合成実験およびRoboTwin2.0、Adroit、MetaWorld、さらに実環境タスクにおいて、HDP3は既存の3D拡散ポリシーのパラメータの<1%で、推論レイテンシも大幅に低い状態で最先端性能を達成した。
- 結論として、アクションのデノイジングは画像生成向け拡散モデルよりも単純なモデルと少ないサンプリング手順で済む可能性を示している。


