DexWorldModel：身体動作タスクの自動学習に向けた因果潜在世界モデル

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、DINOv3の特徴を用いて相互作用のセマンティクスと視覚ノイズを切り分ける、生成的な世界-行動モデリング手法「Causal Latent World Model（CLWM）」を提案する。
CLWMは、Dual-State Test-Time Training（TTT）Memoryにより、長期ホライゾン課題でのメモリ使用量を厳密にO(1)に抑えることでメモリスケーリング問題を解決する。
配備時の逐次推論レイテンシを下げるために、Speculative Asynchronous Inference（SAI）を提案し、拡散の部分的なデノイズ処理を物理実行とオーバーラップさせてブロッキングレイテンシを約50%削減する。
堅牢な身体性ポリシーを拡張するために、physics-groundedな軌道を無限に流し込むオンライン学習フレームワーク「EmbodiChain」を提示し、「Efficiency Law」を主張する。
複数アームのシミュレーションと実ロボットでの広範な実験により、最先端性能と、実データで明示的にファインチューニングしたベースラインを上回る前例のないゼロショットsim-to-real移転が示される。

概要: 操作のための生成型World-Actionモデルの導入は、冗長なピクセルレベル再構成、 $mathcal{O}(T)$ のメモリスケーリング、そして逐次推論のレイテンシによって深刻にボトルネック化しています。私たちは因果潜在ワールドモデル（CLWM）を提案します。これはDINOv3の特徴を生成目標として用い、相互作用の意味論を視覚的ノイズから分離することで、高い堅牢性を持つドメイン汎化を実現します。メモリスケーリングを克服するために、CLWMは長いホライゾンのタスクに対して厳密な $mathcal{O}(1)$ のフットプリントを保証するデュアルステート推論時学習（TTT）メモリを備えています。導入時のレイテンシを克服するために、物理的な実行の背後に部分的な拡散の除ノイズを隠蔽するSpeculative Asynchronous Inference（SAI）を提案し、ブロッキングレイテンシを約 $50\%$ 削減します。堅牢な方策をスケールさせるために、私たちはEmbodiChainを提示します。これは、学習中に物理に基づく軌道の無限の流れを注入することで効率の法則（Efficiency Law）を確立するオンラインの枠組みです。広範な実験により、CLWMが複雑なデュアルアームのシミュレーションにおいて先端（state-of-the-art）の性能を達成し、物理ロボット上での前例のないゼロショットのsim-to-real転移を実現することが検証されます。さらに、実世界データで明示的に微調整（finetuned）されたベースラインを上回ります。