Unified Diffusion VLA:Joint Discrete Denoising Diffusion Processによるビジョン-言語-アクションモデル

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語と視覚入力を同時に解釈し、身体化エージェントのために将来の画像とアクションを生成することを目的としたモデル「Unified Diffusion VLA(Vision-Language-Action)」を提案する。
  • 生成とアクションを別々の段階として扱うのではなく、それらを統合することを目指し、「Joint Discrete Denoising Diffusion Process(JD3P)」によって単一の同期的な共同(joint)ノイズ除去軌道を導入する。
  • 本手法は、モダリティ間で統一されたトークン化表現と、理解・画像生成・アクション予測を本質的に結びつけるハイブリッド注意機構を用いる。
  • 性能と効率の双方を向上させるための2段階の学習パイプラインおよび複数の推論時テクニックが提示される。
  • 実験では、CALVIN、LIBERO、SimplerEnvにおいて最先端(state-of-the-art)の結果が報告され、自己回帰(autoregressive)ベースラインに比べて推論が4倍高速であるという主張がなされている。

Abstract

視覚言語行動(VLA)モデルは、自然言語の指示と視覚観測を理解し、それに対応する行動を実行する、体内化エージェントとしての能力を目指します。近年の研究では、将来画像を理解と行動のループに統合することで、統一的なVLAを実現し、そこでは文章と画像を読み取り、将来画像と行動を生成して、理解・生成・行動を共同で行えるようになります。しかし、これらのモデルは、モダリティ統一のために外部の専門家に依存するか、画像生成と行動予測を別々のプロセスとして扱うため、これらの課題の直接的な相乗効果による利点が十分に活かされていません。私たちの中核となる思想は、同期的なノイズ除去(denoising)のプロセスを通じて、生成と行動を共同で最適化することです。このとき、反復的な洗練によって、一定かつ十分な視覚的ガイダンスのもとで、行動が初期化から進化していくようにします。私たちは、この思想を提案する「Unified Diffusion VLA(統一拡散VLA)」および「Joint Discrete Denoising Diffusion Process(JD3P;離散的ノイズ除去の共同拡散プロセス)」により裏付けます。JD3Pは、複数のモダリティを単一のノイズ除去軌道に統合する共同拡散プロセスであり、理解・生成・行動を本質的に相乗的に可能にする主要なメカニズムとして機能します。私たちのモデルと理論は、すべてのモダリティを統一的にトークン化した空間と、ハイブリッドな注意機構に基づいて構築されています。さらに、2段階の学習パイプラインと、推論時のいくつかの手法を提案し、性能と効率を最適化します。私たちのアプローチは、CALVIN、LIBERO、SimplerEnv などのベンチマークで最先端の性能を達成し、自己回帰的手法よりも 4 imes 速い推論を実現します。また、詳細な分析と実世界での評価を通じて、その有効性を示します。プロジェクトページは https://irpn-eai.github.io/UD-VLA.github.io/ で利用可能です。