モデルベース強化学習のためのアドバンテージ誘導拡散

arXiv cs.AI / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散型ワールドモデルにおける誤差の累積(compounding error)と短いホライゾンによる「マイオピア(myopia)」を、逆拡散過程にアドバンテージ推定を組み込むことで解決する、モデルベース強化学習のためのアドバンテージ誘導拡散(AGD-MBRL)を提案する。
  • 2つの誘導手法として、シグモイド・アドバンテージ誘導(Sigmoid Advantage Guidance: SAG)と指数関数的・アドバンテージ誘導(Exponential Advantage Guidance: EAG)を導入し、誘導付き拡散サンプリングが状態行動アドバンテージを満たす方策改善と結び付く再重み付けサンプリングの性質を証明する。
  • AGDは、生成された拡散ウィンドウ内での挙動に依存するだけでなく、その先でもより良い成績が期待される軌跡へサンプルを誘導することで、長期的なリターンの改善を狙って設計されている。
  • 著者らは、AGDが拡散の学習目的を変更せずに、PolyGRAD型アーキテクチャと自然に統合できることを示す。すなわち、状態生成を誘導しつつ、行動生成は方策に条件付けたまま維持する。
  • MuJoCoのタスク(HalfCheetah, Hopper, Walker2D, Reacher)での実験では、PolyGRAD、オンラインのDiffuserスタイル報酬誘導、ならびにモデルフリーのベースラインと比べて、サンプル効率と最終リターンが改善し、場合によっては最大2倍の向上が報告されている。

Abstract

自己回帰的な世界モデルによるモデルベース強化学習(MBRL)は、誤差が蓄積(compounding)するという問題がある一方で、拡散型の世界モデルは、軌道区間を共同で生成することでこれを緩和する。しかし既存の拡散ガイドは、(1) 方策のみを用いて価値情報を捨てるか、(2) 報酬に基づくものであり、拡散の地平(horizon)が短い場合に見落とし(myopic)になってしまう。そこで我々は、MBRLのためのアドバンテージ誘導拡散(Advantage-Guided Diffusion for MBRL: AGD-MBRL)を提案する。これは、エージェントのアドバンテージ推定を用いて逆拡散過程を誘導し、生成された窓(window)の先にある長期リターンがより高いと見込まれる軌道にサンプリングが集中するようにする。2つのガイドを開発する:(i) シグモイド・アドバンテージ・ガイダンス(Sigmoid Advantage Guidance: SAG)および(ii) 指数関数アドバンテージ・ガイダンス(Exponential Advantage Guidance: EAG)。さらに、SAGまたはEAGによって誘導された拡散モデルでは、標準的な仮定のもとで、状態行動アドバンテージを示唆する方策改善に応じて重みが増加するような重み付きサンプリングを軌道に対して行えることを証明する。加えて、AGD-MBRLが生成する軌道は、誘導なしの拡散モデルと比べて改善された方策(すなわち、より高い価値を持つ)に従うことも示す。AGDは、状態成分を誘導しつつ行動生成方策を方策条件付けのままにすることで、PolyGRAD型のアーキテクチャにシームレスに統合でき、拡散の学習目的の変更は不要である。MuJoCoの制御タスク(HalfCheetah, Hopper, Walker2D, Reacher)において、AGD-MBRLは、オンラインのDiffuserスタイル報酬ガイドであるPolyGRADや、モデルフリーのベースライン(PPO/TRPO)に比べて、最終リターンおよびサンプル効率を改善し、場合によっては2倍の差をつける。これらの結果は、アドバンテージに配慮したガイダンスが、拡散モデルに基づくMBRLにおける短い地平による見落としを、単純で効果的に解決する手段であることを示している。