SD2AIL:拡散モデルによる合成デモからの敵対的模倣学習

arXiv cs.RO / 2026/4/30

💬 オピニオンModels & Research

要点

  • 本論文は、限られた専門家データを補うために拡散モデルで合成デモンストレーションを生成し、それを用いる敵対的模倣学習(AIL)手法としてSD2AILを提案する。
  • 離散器(discriminator)の中で拡散モデルを用いて擬似専門家デモを生成し、その後に訓練へ有用なデモだけを選択して再生することで学習を改善する。
  • 優先度付きの専門家デモ再生戦略(PEDR)により、大規模な(擬似)専門家デモのプールから効率よくデモを選別する。
  • シミュレーション課題での実験により、提案法が有効かつ頑健であることが示され、特にHopperタスクでは平均リターン3441を達成し、従来の最先端を89上回る。
  • 著者らは再現性のためにコードをGitHubで公開すると報告している。

Abstract

敵対的模倣学習(Adversarial Imitation Learning: AIL)は、模倣学習において支配的な枠組みであり、専門家のデモンストレーションから報酬を推定して方策最適化を導きます。より多くの専門家デモンストレーションを提供できれば、一般に性能の向上とより高い安定性が得られますが、そうしたデモンストレーションの収集は、特定の状況では困難になります。データ生成における拡散モデルの成功に着想を得て、拡散モデルを用いて合成デモンストレーションを利用するSD2AILを提案します。まず、判別器において拡散モデルを用いて、専門家デモンストレーションを補強する疑似専門家データとして合成デモンストレーションを生成します。さらに、大量に存在する(疑似)専門家デモンストレーションのプールから、最も価値の高いデモンストレーションを選択的に再生するために、優先度付き専門家デモンストレーション再生戦略(PEDR: Prioritized Expert Demonstration Replay)を導入します。シミュレーション課題に関する実験結果により、本手法の有効性と頑健性が示されます。特に、Hopper課題において本手法は平均リターン3441を達成し、最先端手法を89上回ります。本コードは https://github.com/positron-lpc/SD2AIL で公開予定です。