World-Action Model による方策学習の強化
arXiv cs.AI / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、DreamerV2に逆ダイナミクスの目的関数を追加し、将来の視覚観測を予測しつつ、行動に駆動される状態遷移を共同で学習する、行動正則化付きワールドモデル(World-Action Model: WAM)を提案する。
- 潜在表現が行動に関連する構造を捉えることを促すことで、WAMは、画像予測のみを行うワールドモデルと比べて下流の制御性能を向上させることを狙う。
- 8つのCALVINのマニピュレーションタスクに関する実験では、同一の方策アーキテクチャと学習手順を用いた場合に、WAMがDreamerV2/DiWAのベースラインに対して行動模倣の成功率を59.4%から71.2%へと引き上げることを示す。
- 固定したワールドモデル内でPPOを微調整した後、WAMは平均成功率92.8%を達成し、ベースラインの79.8%を上回る(さらに2つのタスクで100%の成功を含む)。
- この手法は、報告されているPPOの改善を8.7倍少ない学習ステップで達成しており、モデルベース方策学習におけるサンプル効率の向上が示唆される。




