FODMP:時間依存ロボット行動の生成のための運動プリミティブをワンステップで高速に拡散する手法

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散ベースのロボット学習における制約に取り組む。既存のアクション・チャンク化拡散ポリシーは高速だが、短く反応的な運動セグメントしか生成できず、時間依存の運動プリミティブを取り逃してしまう。
  • 本手法は、時間的に構造化された軌道を表すためにProDMPを用いるMovement Primitive Diffusion(MPD)を発展させる。しかしMPDは、運動デコーダが多段の拡散プロセスに組み込まれているため、依然として遅い。
  • 著者らはFODMPを提案する。拡散モデルをProDMP軌道パラメータ空間へ蒸留し、単一ステップのデコーダで運動を生成することで、推論時のボトルネックを除去する。
  • MetaWorldおよびManiSkillでの実験により、FODMPはMPDに対して最大10倍、アクション・チャンク化拡散ポリシーに対して7倍高速に動作できることが示され、成功率は維持、または向上する。
  • 本フレームワークにより、閉ループ視覚制御のもとで、素早く飛来するボールをインターセプトしてキャッチするなどのリアルタイム課題を改善する動的な加速–減速プリミティブも実現できる。

Abstract

拡散モデルはロボット学習にますます利用されているものの、現在の設計には明確なトレードオフが存在します。ManiCMのようなアクション・チャンク化(action-chunking)の拡散ポリシーは実行が速い一方で、短い運動区間しか予測できません。これによりリアクティブにはなりますが、加減速の動特性プロファイルを内蔵したバネ・ダンパのような時間依存の運動プリミティブを捉えることができません。近年、Movement Primitive Diffusion(MPD)は、確率的ダイナミック運動プリミティブ(ProDMPs)を用いて軌道全体をパラメータ化することで、この制約を部分的に解決し、時間的に構造化された運動の生成を可能にしました。それにもかかわらず、MPDは運動デコーダを多段(multi-step)の拡散プロセスへ直接統合しているため、推論レイテンシが極めて高くなり、リアルタイム制御の場面での適用が制限されます。そこで我々は、拡散モデルをProDMPsの軌道パラメータ空間へ蒸留し、単一ステップのデコーダで運動を生成する新しい枠組み、FODMP(Fast One-step Diffusion of Movement Primitives)を提案します。FODMPは、単一ステップの整合性蒸留(single-step consistency distillation)によって推論のボトルネックを解消しつつ、運動プリミティブの時間構造を保持します。これにより、ロボットは高速な推論で時間依存のプリミティブを実行できるようになり、閉ループの視覚ベース制御に適したものとなります。標準的な操作ベンチマーク(MetaWorld、ManiSkill)では、FODMPはMPDより最大10倍速く、アクション・チャンク化拡散ポリシーより7倍速く動作しながら、成功率はそれらと同等、あるいはそれを上回ります。速度に加えて、FODMPは高速な加減速の運動プリミティブを生成できるため、ロボットは高速に飛んでくるボールを迎え撃って確実にキャッチできます。一方で、アクション・チャンク化拡散ポリシーとMPDは、リアルタイムな迎撃のために応答が遅すぎます。