Speedup Patch:プラグアンドプレイのポリシーを学習して身体的マニピュレーションを加速する

arXiv cs.RO / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オフラインデータのみを用いて身体的マニピュレーションのポリシーを加速する、プラグアンドプレイかつポリシー非依存の手法であるSpeedup Patch(SuP)を提案する。
  • SuPは、冗長性を取り除くためにアクションチャンクを適応的にダウンサンプリングする外部スケジューラを追加し、タスク性能を損なわないように制約付きマルコフ決定過程として定式化する。
  • オフライン評価では成功を直接測定できないため、SuPは反実仮想的な軌道予測により安全性制約を満たすために、ワールドモデルに基づく「状態偏差(state deviation)」の代理指標を用いる。
  • シミュレーションのベンチマーク(Libero、Bigym)および実世界のタスクでの実験により、多様なポリシーに対して成功率を維持したまま全体で1.8×の実行速度向上が示される。
  • このアプローチは、ポリシーの再学習や高コストなオンライン相互作用を避けることで、大規模な基盤モデルに対するスケーラビリティの向上を目指す。