ExpertGen:不完全な行動事前分布からのスケーラブルなシミュレーション・ツー・リアル向けエキスパート方策学習

arXiv cs.RO / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • ExpertGenは、現実世界での高品質なエキスパート実演データの収集が高コストすぎるという課題を回避しつつ、頑健で汎用的なロボティクスの行動クローン方策をシミュレーション中心で学習するための枠組みです。
  • ExpertGenは、不完全なデモから拡散ポリシーの行動事前分布を初期化し、そのデモは大規模言語モデルによって合成することも人間が提供することもできます。
  • その後、強化学習でタスク成功を高める際に、拡散モデルの初期ノイズを最適化しつつ事前学習済みの拡散ポリシー自体は凍結することで、探索を安全で人らしい行動の領域に制約します。
  • 実験では、難しいマニピュレーションのベンチマークで、スパース報酬のみで報酬設計(リワードエンジニアリング)なしに高品質なエキスパート方策を安定して生成できることが示され、産業用組立や長い時間軸の操作でも高い性能が報告されています。
  • シミュレーションから実機への移植では、状態ベースのエキスパート方策をDAggerで視覚運動(ビジュオモータ)方策へ蒸留し、実ロボットに展開して成功を確認します。

概要: 一般化可能で堅牢な振る舞いのクローン(behavior cloning)方策を学習するには、大量の高品質なロボティクスデータが必要である。人間のデモンストレーション(例:テレオペレーションによるもの)は専門家の振る舞いの標準的な情報源となる一方で、現実世界でそのようなデータを大規模に獲得することは、費用面で非常に過酷である。本論文では、シミュレーション上で専門家方策学習を自動化し、スケーラブルな sim-to-real(シムから実機への移行)を可能にする枠組み ExpertGen を提案する。ExpertGen はまず、不完全なデモンストレーションによって学習された拡散(diffusion)方策を用いて行動事前分布(behavior prior)を初期化する。このデモンストレーションは、大規模言語モデルによって合成され得るか、あるいは人間によって提供され得る。次に強化学習を用いて、元の方策を凍結したまま、拡散モデルの初期ノイズを最適化することで、この事前分布を高いタスク成功へと誘導する。事前学習済みの拡散方策を凍結することで、ExpertGen は探索を安全で人間らしい振る舞いのマンフォールド内に留めるよう正則化すると同時に、疎な報酬のみでも効果的に学習できるようにする。困難なマニピュレーションベンチマークに対する実証評価により、ExpertGen は報酬設計(reward engineering)を一切行うことなく、高品質な専門家方策を確実に生成できることが示される。産業用の組立タスクでは ExpertGen は総合成功率 90.5% を達成し、長い時間軸を持つマニピュレーションタスクでは総合成功率 85% に到達し、すべてのベースライン手法を上回る。得られた方策は器用な制御を示し、多様な初期状態設定や失敗状態に対しても堅牢である。sim-to-real 移行を検証するため、学習された状態ベースの専門家方策はさらに DAgger を用いて visuomotor 方策へ蒸留され、実際のロボット実機へ正常に展開される。