OGPO:生成的コントロール方策のサンプル効率の高い全ファインチューニング
arXiv cs.LG / 2026/5/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、拡散型やフローベースなどの生成的コントロール方策(GCP)をロボット学習向けに「オフポリシー」でサンプル効率よく全ファインチューニングする手法として、Off-policy Generative Policy Optimization(OGPO)を提案します。
- OGPOは、オフポリシーのクリティックネットワークを維持することでデータ再利用を高め、修正版PPO目的関数により生成的プロセス全体へ方策勾配を伝播させて学習を進めます。
- 実験では、マルチタスク、精密な挿入、高度な器用さを要する制御など、複数のマニピュレーション設定で最先端(SOTA)の性能を示したと報告しています。
- 特に、オンライン再生バッファに専門家データを持たない状況で、初期化が不十分な行動クローン(behavior cloning)方策をほぼ完全なタスク成功にまでファインチューニングできる点が重要な主張です。
- さらに、成功バッファ正則化、保守的アドバンテージ、χ²正則化、Q分散低減といった安定化テクニックを提示し、オフポリシーでの全方策改善を成功に導くメカニズムと失敗モードを体系的に調べています。


![[MTP Drafter] LLM高速化技術の裏側 〜隠されざる下書きコストの天秤〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F275956375%2Frectangle_large_type_2_1777831d30d90144bac0162637953c16.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
