R2-Dreamer: デコーダーやデータ拡張を用いない冗長性を削減したワールドモデル

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

R2-Dreamerは、デコーダーを用いないモデルベースの強化学習フレームワークを提案し、デコーダーやデータ拡張を使わず表現崩壊を防ぐために、Barlow Twinsに触発された冗長性削減の目的を用いる。
このアプローチは、画像ベースのMBRLを対象とし、本質的な情報を蒸留してタスクと無関係な大きな視覚的詳細を無視することで、再構成への依存を減らす。
DeepMind Control SuiteやMeta-WorldといったベンチマークでDreamerV3およびTD-MPC2と競合する性能を示しつつ、DreamerV3より約1.59倍速く訓練でき、DMC-Subtleの小さな物体での性能向上を実現する。
この研究はGitHubでコードが公開されており、実用性と既存のMBRLパイプラインへの統合の可能性を強調している。

概要: 画像ベースのモデルベース強化学習（MBRL）における中心的な課題は、無関係な視覚的ディテールから本質的な情報を抽出する表現を学ぶことです。再構成ベースの手法は有望である一方で、多くの場合、大きなタスクに関係のない領域に容量を無駄に使ってしまいます。デコーダーフリーの手法は代わりに、データ拡張（DA）を活用して頑健な表現を学習しますが、このような外部正則化子への依存は汎用性を制限します。私たちは DA に頼らず表現崩壊を防ぐ内部正則化として機能する自己教師付き目的関数を備えたデコーダーフリーのMBRLフレームワークであるR2-Dreamerを提案します。私たちの手法の核心は、Barlow Twinsに着想を得た冗長性低減目的関数であり、既存のフレームワークに容易に組み込むことができます。DeepMind Control SuiteおよびMeta-Worldで、R2-DreamerはDreamerV3やTD-MPC2などの強力なベースラインと競合しつつ、DreamerV3より1.59倍速く学習します。さらに、DMC-Subtleにおいて、小さなタスク関連オブジェクトを持つ場合にも顕著な改善をもたらします。これらの結果は、効果的な内部正則化項が汎用性が高く高性能なデコーダーフリーMBRLを実現できることを示唆しています。コードは https://github.com/NM512/r2dreamer で公開されています。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

R2-Dreamer: デコーダーやデータ拡張を用いない冗長性を削減したワールドモデル

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer