要旨: 生成型フローと拡散モデルは、高精度なロボットポリシーに必要な連続的で多モーダルな動作分布を提供します。
しかし、それらが反復サンプリングに依存することは深刻な推論遅延を招き、制御周波数を低下させ、時間的制約のある操作での性能を損ないます。
この問題に対処するため、事前学習済みの教師を用いずに高忠実度の単一步アクション生成を実現する、ゼロから構築する自己蒸留フレームワークであるOne-Step Flow Policy (OFP)を提案します。
OFPは、時間間隔をまたぐ整合性を保つ自己整合性損失を統合するとともに、高密度の専門家モードへ予測を鋭化する自己導き正則化を統合します。
さらに、ウォームスタート機構は時間的アクション相関を活用して生成輸送距離を最小化します。
56の多様なシミュレート操作タスクに対する評価の結果、ワンステップOFPは最先端の成果を達成し、100ステップの拡散およびフローポリシーを上回り、アクション生成を100倍超の速度で加速します。
さらに、OFPをRoboTwin 2.0のπ_0.5モデルに組み込み、ワンステップOFPが元の10ステップポリシーを上回ることを示します。
これらの結果は、OFPを高度に正確で低遅延なロボット制御の実用的かつスケーラブルな解決策として位置づけます。
ワンステップ・フローポリシー:高速な視覚運動ポリシーのための自己蒸留
arXiv cs.AI / 2026/3/16
📰 ニュースModels & Research
要点
- ワンステップ・フローポリシー(OFP)は、ゼロから構築される自己蒸留フレームワークで、事前に訓練された教師を必要とせず、視覚運動ポリシーの高忠実度な単一ステップのアクション生成を実現する。
- OFP は、時間区間をまたいだ一貫性のある伝搬を保証する自己整合性損失と、高密度の専門家モードに向けて予測を鋭くする自己誘導正則化を組み合わせ、さらに時間的アクション相関を活用するウォームスタート機構を備える。
- 56件のシミュレートされた操作タスクにおいて、ワンステップOFPは最先端の成果を達成し、100ステップのディフュージョン法およびFlowポリシーを上回り、アクション生成を100倍以上高速化する。
- RoboTwin 2.0 の pi_0.5 モデルへ統合した場合、ワンステップOFPは元の10ステップポリシーを超え、実用的でスケーラブルな低遅延ロボット制御を実証している。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning