要旨: 合成拡散計画(compositional diffusion planning)は、スコア合成によって重なり合う短期(short-horizon)区間をつなぎ合わせることで、長期(long-horizon)の軌道を生成する。しかし、局所計画分布が多峰性(multimodal)である場合、既存の合成手法はモード平均化(mode-averaging)に悩まされる。これは、互いに両立しない(incompatible)局所モードを平均すると、局所的に実行可能でもなく、かつ大域的に首尾一貫していない計画が生じてしまう現象である。我々は、合成サンプリングを高密度で大域的に首尾一貫した計画へと誘導する、学習不要のガイダンス手法である Refining Compositional Diffusion(RCD)を提案する。RCD は、学習済み拡散モデルの自己再構成誤差を、合成された計画の対数密度(log-density)の代理指標として用い、さらに区間境界での整合性を強制するオーバーラップ整合性項(overlap consistency term)を組み合わせる。これらを統合したガイダンスにより、モード平均化を緩和する高密度な計画へサンプリングが集中することを示す。OGBench からの、移動(locomotion)、物体操作(object manipulation)、およびピクセルベースの観測(pixel-based observations)を含む、困難な長期タスクに対する実験では、RCD が既存手法を一貫して上回ることを示す。
長期計画における確実性のための構成的拡散の改良
arXiv cs.RO / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 構成的拡散による計画は、短期ホライズンの計画を重複区間でつなぎ合わせて長期の軌道を生成できる一方、多峰性の局所分布ではモード平均化により、局所的に実行可能でなく大域的にも整合しないプランになりがちです。
- 本論文は、訓練なしの誘導(guidance)手法であるRefining Compositional Diffusion(RCD)を提案し、合成サンプリングを大域的に首尾一貫した高密度の軌道へと誘導します。
- RCDは、事前学習済み拡散モデルの自己再構成誤差を、合成プランの対数密度の代理指標として用い、さらにセグメント境界での整合性を強制する重なり整合(overlap consistency)項を組み込みます。
- OGBenchの難しい長期タスク(移動ロコモーション、物体操作、ピクセル観測)での実験では、RCDが既存手法を一貫して上回り、モード平均化の抑制に有効であることを示しています。



