AI Navigate

R2-Dreamer: デコーダーやデータ拡張を用いない冗長性を削減したワールドモデル

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • R2-Dreamerは、デコーダーを用いないモデルベースの強化学習フレームワークを提案し、デコーダーやデータ拡張を使わず表現崩壊を防ぐために、Barlow Twinsに触発された冗長性削減の目的を用いる。
  • このアプローチは、画像ベースのMBRLを対象とし、本質的な情報を蒸留してタスクと無関係な大きな視覚的詳細を無視することで、再構成への依存を減らす。
  • DeepMind Control SuiteやMeta-WorldといったベンチマークでDreamerV3およびTD-MPC2と競合する性能を示しつつ、DreamerV3より約1.59倍速く訓練でき、DMC-Subtleの小さな物体での性能向上を実現する。
  • この研究はGitHubでコードが公開されており、実用性と既存のMBRLパイプラインへの統合の可能性を強調している。

概要: 画像ベースのモデルベース強化学習(MBRL)における中心的な課題は、無関係な視覚的ディテールから本質的な情報を抽出する表現を学ぶことです。再構成ベースの手法は有望である一方で、多くの場合、大きなタスクに関係のない領域に容量を無駄に使ってしまいます。デコーダーフリーの手法は代わりに、データ拡張(DA)を活用して頑健な表現を学習しますが、このような外部正則化子への依存は汎用性を制限します。私たちは DA に頼らず表現崩壊を防ぐ内部正則化として機能する自己教師付き目的関数を備えたデコーダーフリーのMBRLフレームワークであるR2-Dreamerを提案します。私たちの手法の核心は、Barlow Twinsに着想を得た冗長性低減目的関数であり、既存のフレームワークに容易に組み込むことができます。DeepMind Control SuiteおよびMeta-Worldで、R2-DreamerはDreamerV3やTD-MPC2などの強力なベースラインと競合しつつ、DreamerV3より1.59倍速く学習します。さらに、DMC-Subtleにおいて、小さなタスク関連オブジェクトを持つ場合にも顕著な改善をもたらします。これらの結果は、効果的な内部正則化項が汎用性が高く高性能なデコーダーフリーMBRLを実現できることを示唆しています。コードは https://github.com/NM512/r2dreamer で公開されています。