Foundation Priorsを用いた強化学習:身体を持つエージェントが自律的に効率よく学習する

arXiv cs.RO / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、財団モデル(foundation models)を用いてガイダンスとフィードバックを提供し、手作業の報酬設計を大幅に減らすことで、ロボティクスの強化学習を現実に適用しやすくする「Reinforcement Learning with Foundation Priors(RLFP)」を提案します。
  • 財団モデルに導かれたActor-Criticである「Foundation-guided Actor-Critic(FAC)」アルゴリズムにより、身体的エージェントが自動化された報酬関数の助けを得て、より効率的に探索できるようにします。
  • このフレームワークは、サンプル効率が高いこと、報酬工学を最小限にしつつ効果的であること、さらに財団モデルの事前知識がノイズを含んでも頑健であることを特徴としています。
  • 実験では高い性能が示されており、実機では5つの巧緻操作タスクで1時間のリアルタイム学習後の平均成功率が86%に達し、シミュレーション(Meta-World)では100kフレーム未満で8タスク中7タスクが100%成功となっています。
  • 著者らは、プロジェクトサイトで可視化とコードを公開しており、研究や実装のさらなる発展を支援しています。

要旨: 強化学習(RL)は、ロボットのマニピュレーション課題を解決するための有望なアプローチです。しかし、RLアルゴリズムをそのまま実世界に適用することは困難です。ひとつには、RLがデータを大量に必要とし、通常は環境との相互作用を数百万回行うことが要求されるため、現実のシナリオでは実用的ではないからです。もうひとつには、報酬関数を手作業で設計するために大きな工学的努力が必要だからです。これらの問題に対処するため、本論文では基盤モデルを活用します。本研究では、ポリシー、価値、および成功報酬の基盤モデルから得られるガイダンスとフィードバックを利用するために、強化学習 with 基盤プリオル(RLFP)を提案します。この枠組みの中で、基盤に導かれたActor-Critic(FAC)アルゴリズムを導入し、自動的な報酬関数によって身体を備えたエージェントがより効率的に探索できるようにします。提案枠組みの利点は3つあります:(1) extit{サンプル効率が高い};(2) extit{最小かつ効果的な報酬エンジニアリング};(3) extit{基盤モデルの形式に無関係で、ノイズのあるプリオルに対して頑健}です。本手法は、実ロボットとシミュレーションの両方で多様なマニピュレーション課題において目覚ましい性能を達成します。実ロボットによる5つの巧妙な(dexterous)課題において、FACは実時間学習を1時間行った後の平均成功率が86 ext%です。シミュレーションのMeta-worldにおける8課題では、100kフレーム未満(約1時間の学習)で8課題中7課題において100 ext%の成功率を達成し、1Mフレームにおける手作りの報酬を用いるベースライン手法を上回ります。RLFPの枠組みは、将来のロボットがより多くの課題に対して、物理世界で自律的に探索し学習できるようにすると考えています。可視化とコードは https://yewr.github.io/rlfp で利用可能です。