E0：Tweedie 離散拡散によるVLAモデルにおける汎化性ときめ細かな制御の強化

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ロボットのアクションを量子化されたアクショントークン上での反復的なデノイジングとして生成する、Vision-Language-Action（VLA）モデル向けの Tweedie 離散拡散フレームワーク「E0」を提案する。
過去のVLAにおける汎化性能やアクション品質の問題は、アクション分布の構造、VLM/VLAバックボーンにおけるトークンベースの記号的推論、ならびに実運用における有限の制御解像度に起因すると主張する。
E0は、きめ細かく実行可能なアクション制御の向上を目指し、マスキングベースの離散拡散アプローチで見られる分布の不一致問題を緩和するよう設計されている。
さらに、追加データ収集を行わずに、カメラの視点変化へのロバスト性を高めるための球面視点擾乱（spherical viewpoint perturbation）によるデータ拡張も加える。
LIBERO、VLABench、ManiSkill、ならびに実世界の Franka アームにわたる実験により、14の環境で最先端の結果を報告しており、強力なベースラインに対する平均 10.7% の向上を達成している。

要旨: 視覚言語行動（Vision-Language-Action: VLA）モデルは、視覚的知覚、言語理解、制御生成を統合することで、ロボット操作のための統一的な枠組みを提供する。しかし、既存のVLAシステムは、さまざまなタスク、シーン、カメラ視点にわたって一般化することが依然として難しく、粗い、あるいは不安定な行動を生成することが多い。我々は、これらの制約が、VLA設定における行動の構造的性質と密接に結びついていると主張する。具体的には、行動分布が本質的に多峰性であること、事前学習済みVLM/VLAバックボーンのトークンベースの象徴的推論であること、そして現実世界のロボット制御によって課される実効的な有限解像度であること、である。これらの性質に動機づけられ、我々は、行動生成を量子化された行動トークンに対する反復的なノイズ除去として定式化する、tweedie離散拡散の枠組みE0を導入する。原理に基づく拡散プロセスによって離散的な行動空間で動作することで、E0は自然にトークンベースの推論と整合し、微細でありながら実行可能な行動制御を可能にし、マスキングベースの離散拡散による分布の不一致を回避する。さらに、追加データなしでカメラのずれに対する頑健性を高めるための、球面視点摂動のデータ拡張も導入する。LIBERO、VLABench、ManiSkill、そして実世界のFrankaアームで行った実験により、E0は14の多様な環境すべてにおいて最先端の性能を達成し、強力なベースラインを平均で10.7%上回ることが示された。

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

E0：Tweedie 離散拡散によるVLAモデルにおける汎化性ときめ細かな制御の強化

要点

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer