HiFlow:フローマッチングによるトークン化不要のスケール別自己回帰的方策学習
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視運動方策学習のためのトークン化不要の粗細(コース・トゥ・ファイン)自己回帰的アプローチである階層型フロ―方策(Hierarchical Flow Policy: HiFlow)を提案し、生の連続ロボット行動を直接モデル化する。
- 量子化誤差を招き得る離散行動トークナイザを回避し、さらに従来のマルチステージ学習パイプラインの必要性をなくすために、行動チャンクに対する時間的プーリング(temporal pooling)によってマルチスケールの連続ターゲットを生成する。
- HiFlowは、連続するウィンドウを平均化して粗い行動要約を構築し、これをより細かな時間解像度で洗練(リファイン)することで、エンドツーエンドの単一ステージ学習設定を可能にする。
- MimicGen、RoboTwin 2.0、ならびに実環境での実験により、拡散ベースの方策およびトークン化ベースの自己回帰的ベースラインの両方に対して一貫した性能向上が報告されている。



