E0:Tweedie 離散拡散によるVLAモデルにおける汎化性ときめ細かな制御の強化

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ロボットのアクションを量子化されたアクショントークン上での反復的なデノイジングとして生成する、Vision-Language-Action(VLA)モデル向けの Tweedie 離散拡散フレームワーク「E0」を提案する。
  • 過去のVLAにおける汎化性能やアクション品質の問題は、アクション分布の構造、VLM/VLAバックボーンにおけるトークンベースの記号的推論、ならびに実運用における有限の制御解像度に起因すると主張する。
  • E0は、きめ細かく実行可能なアクション制御の向上を目指し、マスキングベースの離散拡散アプローチで見られる分布の不一致問題を緩和するよう設計されている。
  • さらに、追加データ収集を行わずに、カメラの視点変化へのロバスト性を高めるための球面視点擾乱(spherical viewpoint perturbation)によるデータ拡張も加える。
  • LIBERO、VLABench、ManiSkill、ならびに実世界の Franka アームにわたる実験により、14の環境で最先端の結果を報告しており、強力なベースラインに対する平均 10.7% の向上を達成している。

要旨: 視覚言語行動(Vision-Language-Action: VLA)モデルは、視覚的知覚、言語理解、制御生成を統合することで、ロボット操作のための統一的な枠組みを提供する。しかし、既存のVLAシステムは、さまざまなタスク、シーン、カメラ視点にわたって一般化することが依然として難しく、粗い、あるいは不安定な行動を生成することが多い。我々は、これらの制約が、VLA設定における行動の構造的性質と密接に結びついていると主張する。具体的には、行動分布が本質的に多峰性であること、事前学習済みVLM/VLAバックボーンのトークンベースの象徴的推論であること、そして現実世界のロボット制御によって課される実効的な有限解像度であること、である。これらの性質に動機づけられ、我々は、行動生成を量子化された行動トークンに対する反復的なノイズ除去として定式化する、tweedie離散拡散の枠組みE0を導入する。原理に基づく拡散プロセスによって離散的な行動空間で動作することで、E0は自然にトークンベースの推論と整合し、微細でありながら実行可能な行動制御を可能にし、マスキングベースの離散拡散による分布の不一致を回避する。さらに、追加データなしでカメラのずれに対する頑健性を高めるための、球面視点摂動のデータ拡張も導入する。LIBERO、VLABench、ManiSkill、そして実世界のFrankaアームで行った実験により、E0は14の多様な環境すべてにおいて最先端の性能を達成し、強力なベースラインを平均で10.7%上回ることが示された。

E0:Tweedie 離散拡散によるVLAモデルにおける汎化性ときめ細かな制御の強化 | AI Navigate