DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching
arXiv cs.RO / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- DFM-VLAは、離散トークンで行動を表現するVision-Language-Action(VLA)に対し、生成した行動トークンを反復的に更新して誤りを後から修正できるデコーディング手法を提案しています。
- 提案手法は離散フローマッチングに基づき、トークン列全体を反復ごとにダイナミックに更新する「確率速度場」を学習し、補助速度ヘッド方式とアクション埋め込み誘導方式の2通りを検討しています。
- さらに、反復精錬ステージとその後の決定論的バリデーションを組み合わせて、安定した収束を実現する2段階デコード戦略を採用しています。
- CALVIN・LIBERO・実環境のロボット操作タスクで、自己回帰VLAや離散拡散/連続拡散ベースラインに対して一貫して性能向上しつつ、推論効率も維持できると報告されています。
- 具体的には、CALVINで平均成功長4.44、LIBEROで平均成功率95.7%を達成したとされ、離散フローマッチングによる行動精錬の有効性を示しています。
Related Articles

Black Hat Asia
AI Business
Freedom and Constraints of Autonomous Agents — Self-Modification, Trust Boundaries, and Emergent Gameplay
Dev.to
Von Hammerstein’s Ghost: What a Prussian General’s Officer Typology Can Teach Us About AI Misalignment
Reddit r/artificial
Stop Tweaking Prompts: Build a Feedback Loop Instead
Dev.to
Privacy-Preserving Active Learning for autonomous urban air mobility routing under real-time policy constraints
Dev.to