WM-DAgger:世界モデルによる模倣学習のための効率的なデータ集約を可能にする
arXiv cs.RO / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、模倣学習における複利的な誤差問題、すなわち小さな不正確さがロボットを分布外(OOD)状態へ押し込み、その結果として失敗がエスカレートする問題に取り組む。
- 継続的な人手によるラベリングを行わずに、世界モデルを用いてOODからの回復データを合成するデータ集約フレームワークWM-DAggerを提案し、標準的なDAggerを超えてスケーラビリティを向上させる。
- 世界モデルのハルシネーションによる「誤った教師(misleading supervision)」のリスクを低減するため、タスク指向の回復行動のためのCorrective Action Synthesis Module(修正行動合成モジュール)を追加する。
- さらに、整合性に基づくフィルタリング(Consistency-Guided Filtering Module)を導入し、合成した終端フレームを実際の専門家デモのフレームにアンカーすることで、物理的に破綻した軌道を棄却する。
- 複数の実世界の操作タスクに関する実験で大幅な改善が示され、たとえば5つのデモのみでソフトな袋押しにおいて93.3%の成功率を達成している。また著者らは公開コードも提供している。




