WOMBET：ロバストでサンプル効率の高い強化学習のための世界モデルに基づく経験転移

arXiv cs.LG / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、固定された想定データセットに依存するのではなく、事前データを共同で生成しつつ利用することで経験転移を行う強化学習フレームワークWOMBETを提案する。
WOMBETはソースタスクで世界モデルを学習し、不確実性に対する罰則を加えた計画によりオフライン軌道を生成する。さらに、高いリターンと低いエピステミック不確実性を満たす軌道をフィルタリングする。
オフライン（事前生成）データとオンライン（ターゲットで収集した）経験のバランスを取る適応的サンプリングにより、ターゲットタスクへの安定した引き継ぎをオンラインの微調整で実現する。
著者らは、不確実性に対する罰則付き目的関数を真のリターンに対する下限と結び付けるとともに、有限サンプル誤差を分布不一致と近似誤差に分解することで理論的な裏付けを与える。
連続制御のベンチマークにおける実験では、強力なベースライン手法に比べてサンプル効率と最終性能が向上し、データ生成と転移を共同最適化することの価値が示される。

Abstract

ロボティクスにおける強化学習（RL）は、データ収集のコストとリスクによって制約されることが多く、源タスクから目標タスクへの経験（経験データ）の転送が動機となっています。オフラインからオンラインへのRLは、既存のデータを活用しますが、通常は固定された所与のデータセットを前提としており、転送のために信頼できるデータをどのように生成するかには対処していません。私たちは、事前データを「生成し、同時に利用する」枠組みである\textit{World Model-based Experience Transfer}（WOMBET）を提案します。WOMBETは源タスクで世界モデルを学習し、不確実性に対してペナルティを課す計画によってオフラインデータを生成し、その後、リターンが高く主観的（エピステミック）不確実性が低い軌道をフィルタリングします。続いて、オフラインデータとオンラインデータの間を適応的にサンプリングすることで、目標タスクにおいてオンラインのファインチューニングを行い、事前知識に基づく初期化からタスク固有の適応への安定した移行を可能にします。さらに、不確実性ペナルティ付きの目的関数が真のリターンに対する下界を与えることを示し、分布の不一致と近似誤差を捉える有限サンプルの誤差分解も導出します。実験的に、WOMBETは連続制御のベンチマークにおいて、強力なベースラインと比較してサンプル効率と最終的な性能を改善し、データ生成と転送を同時に最適化することの利点を示します。

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

注目集める「AIエージェント」、一問一答型から自律的なシステムに

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

WOMBET：ロバストでサンプル効率の高い強化学習のための世界モデルに基づく経験転移

要点

Abstract

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず