SERNF:行動チャンク化されたクリティックと正規化フローによる、サンプル効率の高い実世界・巧緻操作ポリシーのファインチューニング

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、限られたインタラクション予算と非常に多峰性な行動分布という課題に対処する、実世界の巧緻操作向けのサンプル効率の高いオフポリシー・ファインチューニング枠組み「SERFN」を提案する。
  • SERFNは正規化フロー(NF)ポリシーを用いて、多峰性の行動チャンクに対する厳密な尤度(likelihood)を生成し、ファインチューニング中に拡散ポリシーでは難しい、尤度に正則化を加えた保守的な更新を可能にする。
  • 行動チャンク化されたクリティックを提案し、各ステップの行動ではなく行動列全体を評価することで、チャンク実行および長いホライズンのタスクに対するクレジット割り当てを改善する。
  • 2つの長期ホライズン操作タスク(ハサミを用いたテープ切断、手の中での立方体の回転)に関する実ロボット実機での実験により、SERFNは標準的手法よりも安定した、かつサンプル効率の高い適応を達成することが示される。
  • 著者らは、巧緻ポリシーのファインチューニングにおいて、多峰性生成ポリシーの尤度ベースの手法と、チャンク単位の価値学習を組み合わせた初めての実ロボットによる実証であると主張している。