PACE:教師なし環境設計におけるパラメータ変更による評価

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 教師なし環境設計(UED)は強化学習の汎化性能を高め得る一方で、現在のUED手法は代理指標による評価が偏り・分散・計算コストの問題を抱え、学習の実際の進捗を反映しにくい。
  • 提案手法のParameter Change Environment Design(PACE)は、その環境で学習したときに生じる方策パラメータの変化量で環境を評価し、実際に得られた学習進捗に直接結び付ける。
  • PACEは方策最適化目的関数を一次近似し、環境価値を対応するパラメータ更新の二乗L2ノルムに比例する量として定義することで、分散を抑えつつ追加のロールアウトなしで効率よく評価できる。
  • MiniGridとCraftaxでの実験では、PACEが既存のUEDベースラインを一貫して上回り、OOD評価でIQMが高く最適性ギャップが小さいことが示された(MiniGridでIQM 96.4%、最適性ギャップ17.2%)。