Abstract
視覚言語行動(VLA)モデルは、自然言語の指示と視覚観測を理解し、それに対応する行動を実行する、体内化エージェントとしての能力を目指します。近年の研究では、将来画像を理解と行動のループに統合することで、統一的なVLAを実現し、そこでは文章と画像を読み取り、将来画像と行動を生成して、理解・生成・行動を共同で行えるようになります。しかし、これらのモデルは、モダリティ統一のために外部の専門家に依存するか、画像生成と行動予測を別々のプロセスとして扱うため、これらの課題の直接的な相乗効果による利点が十分に活かされていません。私たちの中核となる思想は、同期的なノイズ除去(denoising)のプロセスを通じて、生成と行動を共同で最適化することです。このとき、反復的な洗練によって、一定かつ十分な視覚的ガイダンスのもとで、行動が初期化から進化していくようにします。私たちは、この思想を提案する「Unified Diffusion VLA(統一拡散VLA)」および「Joint Discrete Denoising Diffusion Process(JD3P;離散的ノイズ除去の共同拡散プロセス)」により裏付けます。JD3Pは、複数のモダリティを単一のノイズ除去軌道に統合する共同拡散プロセスであり、理解・生成・行動を本質的に相乗的に可能にする主要なメカニズムとして機能します。私たちのモデルと理論は、すべてのモダリティを統一的にトークン化した空間と、ハイブリッドな注意機構に基づいて構築されています。さらに、2段階の学習パイプラインと、推論時のいくつかの手法を提案し、性能と効率を最適化します。私たちのアプローチは、CALVIN、LIBERO、SimplerEnv などのベンチマークで最先端の性能を達成し、自己回帰的手法よりも 4 imes 速い推論を実現します。また、詳細な分析と実世界での評価を通じて、その有効性を示します。プロジェクトページは https://irpn-eai.github.io/UD-VLA.github.io/ で利用可能です。