生成的ポリシー学習における効率と安定性の架け橋となるクリップ付き目的関数による事後最適化

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、時間的に拡張されたアクション・チャンクに対する事後推論問題へと生成的ポリシー改善を変換する強化学習（RL）フレームワークPOCO（Posterior Optimization with Clipped Objective）を提案する。
POCOは、明示的な尤度推定を必要とせずに、報酬で重み付けされた暗黙の事後をポリシーへ蒸留するために、期待値最大化（EM）スタイルの手順を用いる。
オフラインからオンラインへの学習戦略を導入し、事前学習済みポリシーの事前分布に結び付けてオンライン探索を行うことで、安定性とサンプル効率の向上を狙う。
本手法はモデルに非依存であるため、アーキテクチャ変更なしに大規模VLA（視覚・言語・行動）モデルを微調整できる。
7つのシミュレーション・ベンチマークと、接触の多い実世界ロボティクス課題4件での実験により、POCOが壊滅的なポリシー崩壊を回避し、最先端のベースラインを上回り、実世界テストで96.7%の成功率を達成することが報告されている。