PACE:教師なし環境設計におけるパラメータ変更による評価
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 教師なし環境設計(UED)は強化学習の汎化性能を高め得る一方で、現在のUED手法は代理指標による評価が偏り・分散・計算コストの問題を抱え、学習の実際の進捗を反映しにくい。
- 提案手法のParameter Change Environment Design(PACE)は、その環境で学習したときに生じる方策パラメータの変化量で環境を評価し、実際に得られた学習進捗に直接結び付ける。
- PACEは方策最適化目的関数を一次近似し、環境価値を対応するパラメータ更新の二乗L2ノルムに比例する量として定義することで、分散を抑えつつ追加のロールアウトなしで効率よく評価できる。
- MiniGridとCraftaxでの実験では、PACEが既存のUEDベースラインを一貫して上回り、OOD評価でIQMが高く最適性ギャップが小さいことが示された(MiniGridでIQM 96.4%、最適性ギャップ17.2%)。




