DFM-VLA: 離散フローマッチングによるロボット操作のための反復的アクション洗練

arXiv cs.RO / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

DFM-VLAは、離散トークンで行動を表現するVision-Language-Action（VLA）に対し、生成した行動トークンを反復的に更新して誤りを後から修正できるデコーディング手法を提案しています。
提案手法は離散フローマッチングに基づき、トークン列全体を反復ごとにダイナミックに更新する「確率速度場」を学習し、補助速度ヘッド方式とアクション埋め込み誘導方式の2通りを検討しています。
さらに、反復精錬ステージとその後の決定論的バリデーションを組み合わせて、安定した収束を実現する2段階デコード戦略を採用しています。
CALVIN・LIBERO・実環境のロボット操作タスクで、自己回帰VLAや離散拡散/連続拡散ベースラインに対して一貫して性能向上しつつ、推論効率も維持できると報告されています。
具体的には、CALVINで平均成功長4.44、LIBEROで平均成功率95.7%を達成したとされ、離散フローマッチングによる行動精錬の有効性を示しています。

要旨: 離散トークン化の方式で行動を符号化する Vision--Language--Action (VLA) モデルは、ロボットによるマニピュレーションにますます採用されている一方で、既存のデコード手法には本質的な限界が残っています。行動が自己回帰型の VLA によって逐次的にデコードされる場合でも、離散拡散型の VLA によって並列にデコードされる場合でも、トークンが生成されると通常は固定され、その後の反復で修正することができません。そのため、初期のトークン誤りを後から効果的に修正することができません。そこで本研究では、行動トークンを反復的に洗練（refine）するための離散フローマッチング VLA である DFM-VLA を提案します。DFM-VLA は、洗練の反復を通じて行動系列全体を動的に更新する、トークンレベルの確率速度場をモデル化します。速度場の構築方法として、補助的な velocity-head の定式化と、行動埋め込みに導かれる定式化の 2 通りを検討します。本フレームワークはさらに、反復的洗練段階に続いて決定論的な検証を行う二段階デコード戦略を採用し、安定した収束を実現します。CALVIN、LIBERO、そして実世界のマニピュレーション課題に対する大規模な実験の結果、DFM-VLA は操作性能において、強力な自己回帰型、離散拡散型、連続拡散型のベースラインを一貫して上回りつつ、高い推論効率も維持することが示されました。特に DFM-VLA は、CALVIN で平均成功長 4.44、LIBERO で平均成功率 95.7ootnote{success rate}を達成しており、ロボットによるマニピュレーションにおける離散フローマッチングによる行動洗練の価値を際立たせています。本プロジェクトは
c{https://chris1220313648.github.io/DFM-VLA/}で公開しています

Black Hat Asia

AI Business

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

DFM-VLA: 離散フローマッチングによるロボット操作のための反復的アクション洗練

要点

関連記事

Black Hat Asia

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer