概要: 拡散ポリシーはビジュアルモータ制御に優れていますが、予期しない物体の移動や視覚の破損といった、強い分布外(OOD)擾乱の下ではしばしば壊滅的に失敗します。この脆弱性に対処するため、共有された3D視覚エンコーダを通じて、拡散ワールドモデルをポリシーの学習目的へ深く統合する枠組み「Dream Diffusion Policy(DDP)」を提案します。この共同最適化により、ポリシーは頑健な状態予測能力を獲得します。推論中に突然のOOD異常に遭遇すると、DDPは「現実(実際の観測)-イマジネーション(想像)」の不一致を検出し、破損した視覚ストリームを積極的に見捨てます。その代わりに、内部にある「imagination(自己回帰的に予測した潜在ダイナミクス)」に頼って、擾乱を安全に回避し、想像上の軌道を生成します。その後、物理的現実との整合へ滑らかに再調整します。大規模な評価により、DDPの優れた耐性が示されています。特に、DDPはMetaWorldにおいてOOD成功率73.8%を達成しています(予測型imaginationなしでは23.9%)。また、深刻な現実世界の空間シフト下では成功率83.3%を達成しています(予測型imaginationなしでは3.3%)。さらにストレステストとして、初期化後に完全にオープンループのimaginationだけに依存する場合でも、DDPは現実世界の成功率76.7%を維持します。
見えないものを夢見る:外部分布(OOD)への頑健性のための、世界モデル正則化拡散ポリシー
arXiv cs.RO / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、共有する3D視覚エンコーダを用いて学習された拡散型の世界モデルと、拡散ベースの視覚運動制御を結合することで、外部分布(OOD)への頑健性を高める「Dream Diffusion Policy(DDP)」を提案する。
- DDPは、実際の観測と、その自己回帰的な潜在「イマジネーション」との間の不一致を検出することで、壊滅的な失敗を軽減し、推論中に一時的に破損した視覚入力を放棄する。
- 失敗して停止したり、固定したりするのではなく、内部で予測した潜在ダイナミクスを用いて想像上の軌道を生成し、破壊が収まった後に物理現実へ滑らかに再整列する。
- 実験では、MetaWorldにおいてOOD性能が大幅に向上したことが報告されている(「予測的イマジネーション」なし:23.9%に対し、73.8%)。さらに、厳しい現実世界の空間シフト下でも(83.3% vs 3.3%)同様の改善が示される。
- ストレステストでは、初期化後にクローズドループのセンシングではなくオープンループのイマジネーションへ切り替えても、現実世界条件で成功率76.7%に到達できることが示されており、閉ループでのセンシングを超えた強い回復力が示唆される。