ResWM: 視覚RLの残差アクション世界モデル
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ResWM は制御を残差アクションとして再定式化—前のステップに対する増分的な調整—することで、最適化を安定させ、現実世界の制御の滑らかさと整合させる。
- 観測差分エンコーダ(Observation Difference Encoder)を導入し、隣接フレーム間の変化をモデリングすることで、残差アクションと密に結合したコンパクトな潜在ダイナミクスを得る。
- 最小限の修正と追加ハイパーパラメータなしで Dreamer風潜在ダイナミクスモデルへ統合され、残差アクション空間だけで学習を可能にする。
- DeepMind Control Suite における実証結果は、サンプル効率の改善、漸近的リターンの向上、滑らかでエネルギー効率の高いアクション軌道を達成し、Dreamer や TD-MPC のような強力なベースラインを大幅に上回っている。
要約:生の視覚観察から予測的な世界モデルを学習することは、強化学習(RL)の中心的な課題であり、特にロボティクスと連続制御において重要です。従来のモデルベース RL のフレームワークは将来の予測を絶対的なアクションに直接条件付けするため、最適化を不安定にします。最適なアクション分布はタスク依存で事前には未知であり、往々にして振動的または非効率的な制御を引き起こします。これを解決するために、 Residual-Action World Model(ResWM)を導入します。これは絶対アクションから残差アクション—前のステップに対する増分的な調整—へと制御変数を再定式化する新しいフレームワークです。この設計は現実世界の制御の固有の滑らかさと一致し、探索空間を効果的に縮小し、長距離計画を安定化します。表現力をさらに強化するため、隣接フレーム間の変化を明示的にモデリングする観測差分エンコーダ(Observation Difference Encoder)を提案します。これにより、残差アクションと自然に結合したコンパクトな潜在ダイナミクスが得られます。ResWMは Dreamer風の潜在ダイナミクスモデルに最小限の修正と追加のハイパーパラメータなしで統合されます。想像ロールアウトとポリシー最適化の両方が残差アクション空間で実行され、より滑らかな探索、低い制御分散、より信頼性の高い計画を可能にします。DeepMind Control Suite における経験的結果は、サンプル効率、漸近的リターン、制御の滑らかさの一貫した改善を示し、DreamerやTD-MPCといった強力なベースラインを大幅に上回っています。性能を超えて、ResWMはより安定でエネルギー効率の高いアクション軌道を生み出し、現実世界の環境に配備されるロボットシステムにとって重要な特性です。これらの知見は、残差アクションモデリングが、RLのアルゴリズム的進歩とロボティクスの実用的要件を結ぶ、単純でありながら強力な原則を提供することを示唆しています。