SD2AIL:拡散モデルによる合成デモからの敵対的模倣学習
arXiv cs.RO / 2026/4/30
💬 オピニオンModels & Research
要点
- 本論文は、限られた専門家データを補うために拡散モデルで合成デモンストレーションを生成し、それを用いる敵対的模倣学習(AIL)手法としてSD2AILを提案する。
- 離散器(discriminator)の中で拡散モデルを用いて擬似専門家デモを生成し、その後に訓練へ有用なデモだけを選択して再生することで学習を改善する。
- 優先度付きの専門家デモ再生戦略(PEDR)により、大規模な(擬似)専門家デモのプールから効率よくデモを選別する。
- シミュレーション課題での実験により、提案法が有効かつ頑健であることが示され、特にHopperタスクでは平均リターン3441を達成し、従来の最先端を89上回る。
- 著者らは再現性のためにコードをGitHubで公開すると報告している。



