ドリフトベース方策最適化:オンラインロボット制御のためのネイティブな1ステップ方策学習

arXiv cs.RO / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、固定小数点(fixed-point)のドリフト目的関数を通じて、反復的な改良をモデル内に内在化するよう学習することで、多段階の生成的ロボット制御方策をネイティブな1ステップの生成的バックボーンへ変換するためのドリフトベース方策(DBP)を提案する。
  • ドリフトベース方策最適化(DBPO)として、事前学習済みDBPバックボーンに適合する確率的インターフェースを追加するオンライン強化学習手法を導入し、1ステップで推論コストが低いまま、安定したオンポリシー更新を可能にする。
  • オフライン模倣学習、オンライン微調整、実環境での制御にまたがる実験により、DBPは多段階拡散方策と同等、あるいはそれ以上の性能を示しつつ、最大で推論を100倍高速化することがわかった。
  • 難度の高い操作ベンチマークでは、DBPは既存の1ステップ方策ベースラインをも上回り、DBPOは信頼性が高く安定したオンライン方策改善を支える。
  • 実環境のデュアルアームロボット実験では、105.2 Hzの高周波なクローズドループ制御性能が報告され、1ステップアプローチがオンラインロボット制御として実用可能であることを示している。

要旨: マルチステップの生成ポリシーは、マルチモーダルな行動分布をモデル化することでロボット操作において強い性能を達成しますが、推論時にはマルチステップの反復的なノイズ除去(デノイジング)が必要です。そのため、それぞれの行動は数十から数百回のネットワーク関数評価(NFE)を要し、高頻度のクローズドループ制御やオンライン強化学習(RL)に対してコストが高くなります。この制約に対処するため、推論から訓練へ洗練(リファインメント)を移す、ネイティブなワンステップ生成ポリシーのための二段階フレームワークを提案します。まず、固定点ドリフティング目的(fixed-point drifting objectives)を活用する Drift-Based Policy(DBP)を導入します。これにより、反復的な洗練をモデルのパラメータへ内部化し、マルチモーダルな行動モデリング能力を維持したまま、設計上ワンステップの生成バックボーンを実現します。次に、事前学習済みのバックボーンに互換性のある確率的インターフェースを与えることで、ワンステップ展開という性質を損なうことなく、安定したオンポリシー更新を可能にするオンラインRLフレームワークである Drift-Based Policy Optimization(DBPO)を開発します。広範な実験により、提案フレームワークがオフライン模倣学習、オンライン微調整、実世界の制御シナリオのいずれにおいても有効であることを示します。DBPは、マルチステップ拡散ポリシーの性能に匹敵、またはそれを上回りつつ、最大で100\times高速な推論を達成します。さらに、難しい操作ベンチマークにおいて、既存のワンステップ手法を一貫して上回ります。加えて、DBPOはオンライン環境における効果的かつ安定したポリシー改善を可能にします。実世界のデュアルアームロボットでの実験では、105.2 Hzでの信頼性の高い高頻度制御が実証されます。