WOMBET:ロバストでサンプル効率の高い強化学習のための世界モデルに基づく経験転移

arXiv cs.LG / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、固定された想定データセットに依存するのではなく、事前データを共同で生成しつつ利用することで経験転移を行う強化学習フレームワークWOMBETを提案する。
  • WOMBETはソースタスクで世界モデルを学習し、不確実性に対する罰則を加えた計画によりオフライン軌道を生成する。さらに、高いリターンと低いエピステミック不確実性を満たす軌道をフィルタリングする。
  • オフライン(事前生成)データとオンライン(ターゲットで収集した)経験のバランスを取る適応的サンプリングにより、ターゲットタスクへの安定した引き継ぎをオンラインの微調整で実現する。
  • 著者らは、不確実性に対する罰則付き目的関数を真のリターンに対する下限と結び付けるとともに、有限サンプル誤差を分布不一致と近似誤差に分解することで理論的な裏付けを与える。
  • 連続制御のベンチマークにおける実験では、強力なベースライン手法に比べてサンプル効率と最終性能が向上し、データ生成と転移を共同最適化することの価値が示される。

Abstract

ロボティクスにおける強化学習(RL)は、データ収集のコストとリスクによって制約されることが多く、源タスクから目標タスクへの経験(経験データ)の転送が動機となっています。オフラインからオンラインへのRLは、既存のデータを活用しますが、通常は固定された所与のデータセットを前提としており、転送のために信頼できるデータをどのように生成するかには対処していません。私たちは、事前データを「生成し、同時に利用する」枠組みである\textit{World Model-based Experience Transfer}(WOMBET)を提案します。WOMBETは源タスクで世界モデルを学習し、不確実性に対してペナルティを課す計画によってオフラインデータを生成し、その後、リターンが高く主観的(エピステミック)不確実性が低い軌道をフィルタリングします。続いて、オフラインデータとオンラインデータの間を適応的にサンプリングすることで、目標タスクにおいてオンラインのファインチューニングを行い、事前知識に基づく初期化からタスク固有の適応への安定した移行を可能にします。さらに、不確実性ペナルティ付きの目的関数が真のリターンに対する下界を与えることを示し、分布の不一致と近似誤差を捉える有限サンプルの誤差分解も導出します。実験的に、WOMBETは連続制御のベンチマークにおいて、強力なベースラインと比較してサンプル効率と最終的な性能を改善し、データ生成と転送を同時に最適化することの利点を示します。