Abstract
Vision-Language-Action(VLA)モデルは、視覚観測と自然言語の指示から、ロボットの操作を制御することを目指しています。しかし、既存の階層的および自己回帰的パラダイムはしばしば、アーキテクチャ上のオーバーヘッドを生み、時間的一貫性の欠如や長期ホライズンでの誤差蓄積に悩まされ、追加のモジュールなしに環境ダイナミクスを捉える仕組みを欠いています。そこで本研究では、単一の枠組みで多モーダルな理解と生成を統合する、完全にネイティブな事前学習済み大規模拡散VLAモデルであるMMaDA-VLAを提案します。本手法の重要なアイデアは、言語、画像、連続的なロボット制御を1つの離散トークン空間に埋め込み、未来のゴール観測とアクションチャンクを並列に共同生成するために、マスク付きトークンの復元(denoising)で単一のバックボーンを学習する、ネイティブな離散拡散の定式化です。反復的な復元により、順序に依存しないグローバルな洗練が可能になり、長期ホライズンでの一貫性が向上します。また、補助的な世界モデルなしに、予測された将来の視覚的な結果に基づいて行動を実現できます。シミュレーションのベンチマークおよび実世界のタスクにまたがる実験により、最先端の性能が示され、LIBEROで平均98.0%の成功率、CALVINで平均4.78の長さを達成しています。