World-Action Model による方策学習の強化

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、DreamerV2に逆ダイナミクスの目的関数を追加し、将来の視覚観測を予測しつつ、行動に駆動される状態遷移を共同で学習する、行動正則化付きワールドモデル（World-Action Model: WAM）を提案する。
潜在表現が行動に関連する構造を捉えることを促すことで、WAMは、画像予測のみを行うワールドモデルと比べて下流の制御性能を向上させることを狙う。
8つのCALVINのマニピュレーションタスクに関する実験では、同一の方策アーキテクチャと学習手順を用いた場合に、WAMがDreamerV2/DiWAのベースラインに対して行動模倣の成功率を59.4%から71.2%へと引き上げることを示す。
固定したワールドモデル内でPPOを微調整した後、WAMは平均成功率92.8%を達成し、ベースラインの79.8%を上回る（さらに2つのタスクで100%の成功を含む）。
この手法は、報告されているPPOの改善を8.7倍少ない学習ステップで達成しており、モデルベース方策学習におけるサンプル効率の向上が示唆される。

Abstract

本論文では、将来の視覚観測と状態遷移を駆動する行動を同時に推論する、行動正則化型の世界モデルである World-Action Model（WAM）を提案する。画像予測のみによって学習される従来の世界モデルとは異なり、WAM は DreamerV2 に逆ダイナミクス目的を組み込み、潜在状態遷移から行動を予測することで、学習表現が下流の制御にとって重要な行動に関連する構造を捉えるよう促す。CALVIN ベンチマークの 8 つのマニピュレーション課題において、方策学習の強化を目的として WAM を評価する。まず、世界モデルの潜在表現に対して行動クローン（behavioral cloning）によって拡散型ポリシーを事前学習し、その後、固定した世界モデルの内部でモデルベース PPO により洗練（refine）する。方策のアーキテクチャや学習手順を一切変更せずに、WAM は DreamerV2 および DiWA のベースラインに対して行動クローンの平均成功率を 59.4% から 71.2% に改善する。PPO による微調整の後、WAM はベースラインに対して平均成功率 92.8%（ベースライン 79.8%）を達成し、2 つの課題で 100% に到達する。さらに、8.7 倍少ない学習ステップ数でこれを実現する。