広告

HiFlow:フローマッチングによるトークン化不要のスケール別自己回帰的方策学習

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視運動方策学習のためのトークン化不要の粗細(コース・トゥ・ファイン)自己回帰的アプローチである階層型フロ―方策(Hierarchical Flow Policy: HiFlow)を提案し、生の連続ロボット行動を直接モデル化する。
  • 量子化誤差を招き得る離散行動トークナイザを回避し、さらに従来のマルチステージ学習パイプラインの必要性をなくすために、行動チャンクに対する時間的プーリング(temporal pooling)によってマルチスケールの連続ターゲットを生成する。
  • HiFlowは、連続するウィンドウを平均化して粗い行動要約を構築し、これをより細かな時間解像度で洗練(リファイン)することで、エンドツーエンドの単一ステージ学習設定を可能にする。
  • MimicGen、RoboTwin 2.0、ならびに実環境での実験により、拡散ベースの方策およびトークン化ベースの自己回帰的ベースラインの両方に対して一貫した性能向上が報告されている。

Abstract

粗視化から微細化への自己回帰的モデリング(coarse-to-fine autoregressive modeling)は、拡散ベースのポリシーに見られる大域的な軌道の一貫性と、自己回帰法の推論効率を組み合わせることで、ビジョーモーターポリシー学習に強い有望性を最近示してきました。しかし、既存の手法は、連続的な行動系列をコードブックのインデックスにマッピングする離散的な行動トークナイザに依存しています。この設計は、高次元のピクセルデータに対して学習済み圧縮が必要となる画像生成から引き継がれたものです。私たちは、ロボットの行動は本質的に低次元の連続ベクトルであるため、このようなトークナイズは不必要な量子化誤差と、多段階の学習パイプラインを導入してしまうことを観察しました。本研究では、トークナイズ不要の粗視化から微細化への自己回帰ポリシーである階層フローポリシー(Hierarchical Flow Policy, HiFlow)を提案します。HiFlowは、生の連続的行動に直接作用し、連続的なトークナイズを行いません。HiFlowは、単純な時間的プーリングによって、各行動チャンクからマルチスケールの連続的行動目標を構築します。具体的には、連続する行動ウィンドウを平均化して粗い要約を生成し、それをより細かい時間解像度で精密化します。モデル全体は単一段階でエンドツーエンドに訓練され、別個のトークナイザは不要になります。MimicGen、RoboTwin 2.0、および実環境での実験により、HiFlowは拡散ベースやトークナイズベースの自己回帰ポリシーを含む既存手法を一貫して上回ることが示されます。

広告