WOMBET:ロバストでサンプル効率の高い強化学習のための世界モデルに基づく経験転移
arXiv cs.LG / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、固定された想定データセットに依存するのではなく、事前データを共同で生成しつつ利用することで経験転移を行う強化学習フレームワークWOMBETを提案する。
- WOMBETはソースタスクで世界モデルを学習し、不確実性に対する罰則を加えた計画によりオフライン軌道を生成する。さらに、高いリターンと低いエピステミック不確実性を満たす軌道をフィルタリングする。
- オフライン(事前生成)データとオンライン(ターゲットで収集した)経験のバランスを取る適応的サンプリングにより、ターゲットタスクへの安定した引き継ぎをオンラインの微調整で実現する。
- 著者らは、不確実性に対する罰則付き目的関数を真のリターンに対する下限と結び付けるとともに、有限サンプル誤差を分布不一致と近似誤差に分解することで理論的な裏付けを与える。
- 連続制御のベンチマークにおける実験では、強力なベースライン手法に比べてサンプル効率と最終性能が向上し、データ生成と転移を共同最適化することの価値が示される。
