モデルベース強化学習のためのアドバンテージ誘導拡散
arXiv cs.AI / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡散型ワールドモデルにおける誤差の累積(compounding error)と短いホライゾンによる「マイオピア(myopia)」を、逆拡散過程にアドバンテージ推定を組み込むことで解決する、モデルベース強化学習のためのアドバンテージ誘導拡散(AGD-MBRL)を提案する。
- 2つの誘導手法として、シグモイド・アドバンテージ誘導(Sigmoid Advantage Guidance: SAG)と指数関数的・アドバンテージ誘導(Exponential Advantage Guidance: EAG)を導入し、誘導付き拡散サンプリングが状態行動アドバンテージを満たす方策改善と結び付く再重み付けサンプリングの性質を証明する。
- AGDは、生成された拡散ウィンドウ内での挙動に依存するだけでなく、その先でもより良い成績が期待される軌跡へサンプルを誘導することで、長期的なリターンの改善を狙って設計されている。
- 著者らは、AGDが拡散の学習目的を変更せずに、PolyGRAD型アーキテクチャと自然に統合できることを示す。すなわち、状態生成を誘導しつつ、行動生成は方策に条件付けたまま維持する。
- MuJoCoのタスク(HalfCheetah, Hopper, Walker2D, Reacher)での実験では、PolyGRAD、オンラインのDiffuserスタイル報酬誘導、ならびにモデルフリーのベースラインと比べて、サンプル効率と最終リターンが改善し、場合によっては最大2倍の向上が報告されている。

