要旨: 離散トークン化の方式で行動を符号化する Vision--Language--Action (VLA) モデルは、ロボットによるマニピュレーションにますます採用されている一方で、既存のデコード手法には本質的な限界が残っています。行動が自己回帰型の VLA によって逐次的にデコードされる場合でも、離散拡散型の VLA によって並列にデコードされる場合でも、トークンが生成されると通常は固定され、その後の反復で修正することができません。そのため、初期のトークン誤りを後から効果的に修正することができません。そこで本研究では、行動トークンを反復的に洗練(refine)するための離散フローマッチング VLA である DFM-VLA を提案します。DFM-VLA は、洗練の反復を通じて行動系列全体を動的に更新する、トークンレベルの確率速度場をモデル化します。速度場の構築方法として、補助的な velocity-head の定式化と、行動埋め込みに導かれる定式化の 2 通りを検討します。本フレームワークはさらに、反復的洗練段階に続いて決定論的な検証を行う二段階デコード戦略を採用し、安定した収束を実現します。CALVIN、LIBERO、そして実世界のマニピュレーション課題に対する大規模な実験の結果、DFM-VLA は操作性能において、強力な自己回帰型、離散拡散型、連続拡散型のベースラインを一貫して上回りつつ、高い推論効率も維持することが示されました。特に DFM-VLA は、CALVIN で平均成功長 4.44、LIBERO で平均成功率 95.7ootnote{success rate}を達成しており、ロボットによるマニピュレーションにおける離散フローマッチングによる行動洗練の価値を際立たせています。本プロジェクトは
c{https://chris1220313648.github.io/DFM-VLA/}で公開しています
DFM-VLA: 離散フローマッチングによるロボット操作のための反復的アクション洗練
arXiv cs.RO / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- DFM-VLAは、離散トークンで行動を表現するVision-Language-Action(VLA)に対し、生成した行動トークンを反復的に更新して誤りを後から修正できるデコーディング手法を提案しています。
- 提案手法は離散フローマッチングに基づき、トークン列全体を反復ごとにダイナミックに更新する「確率速度場」を学習し、補助速度ヘッド方式とアクション埋め込み誘導方式の2通りを検討しています。
- さらに、反復精錬ステージとその後の決定論的バリデーションを組み合わせて、安定した収束を実現する2段階デコード戦略を採用しています。
- CALVIN・LIBERO・実環境のロボット操作タスクで、自己回帰VLAや離散拡散/連続拡散ベースラインに対して一貫して性能向上しつつ、推論効率も維持できると報告されています。
- 具体的には、CALVINで平均成功長4.44、LIBEROで平均成功率95.7%を達成したとされ、離散フローマッチングによる行動精錬の有効性を示しています。



