Fast-dVLA: 離散拡散VLAをリアルタイム性能へ加速する

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「Fast-dVLA」を提案し、重い補助損失に依存せずに、事前学習済みVLAの性能を改善し、標準的な教師あり微調整（SFT）における適応コストを低減することを目的としている。
パラメータ空間において補助学習の目標を分離する。すなわち、汎用的な能力強化と、タスク固有のアクション分布の適合を切り離し、小規模なタスク収束実行から導出した「能力ベクトル」によって行う。
これらの能力ベクトルを事前学習済みパラメータと統合し、能力強化されたメタモデルを構築する。これは、補助タスクの恩恵をより効率よく取り込むことを意図している。
さらに、補強された標準SFTに対して軽量な直交正則化項を追加し、計算オーバーヘッドを抑えつつ、補助微調整ベースラインと同等の結果を得る。
実験では、さまざまなロボットタスクにわたって強い有効性が報告されており、本手法が単一のベンチマークを超えて一般化できることを示唆している。

要旨: 本論文は、事前学習済みのVLAモデルが標準的な教師ありファインチューニング（SFT）において性能を効果的に向上させたり、適応コストを低減したりできないことが多いという課題に対処するための新しいアプローチを提案する。補助的な学習目的を伴ういくつかの高度なファインチューニング手法は、性能の向上や収束ステップ数の削減に有効であることができる。だが、それらは通常、補助タスクによる追加損失のために大きな計算オーバーヘッドを招く。本研究では、補助学習によって得られる強化された能力と、標準SFTの単純さを同時に実現するために、パラメータ空間内で補助タスク学習の2つの目的、すなわち一般的能力の強化とタスク固有の行動分布への適合を分離する。この目標を達成するために、2つの異なる学習戦略を用いて、小規模なタスク集合でモデルを収束するように学習するだけでよい。得られたモデルパラメータの差は、補助タスクが提供する能力ベクトルとして解釈できる。これらのベクトルを事前学習済みパラメータと統合して、能力強化されたメタモデルを形成する。さらに、標準SFTに軽量な直交正則化損失を追加すると、統合されたモデルは、計算オーバーヘッドを削減しつつ、補助的にファインチューニングしたベースラインと同等の性能を達成する。実験結果は、本アプローチが多様なロボットタスクに対して非常に有効であることを示している。プロジェクトページ: https://chris1220313648.github.io/Fast-dVLA/