WM-DAgger:世界モデルによる模倣学習のための効率的なデータ集約を可能にする

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、模倣学習における複利的な誤差問題、すなわち小さな不正確さがロボットを分布外(OOD)状態へ押し込み、その結果として失敗がエスカレートする問題に取り組む。
  • 継続的な人手によるラベリングを行わずに、世界モデルを用いてOODからの回復データを合成するデータ集約フレームワークWM-DAggerを提案し、標準的なDAggerを超えてスケーラビリティを向上させる。
  • 世界モデルのハルシネーションによる「誤った教師(misleading supervision)」のリスクを低減するため、タスク指向の回復行動のためのCorrective Action Synthesis Module(修正行動合成モジュール)を追加する。
  • さらに、整合性に基づくフィルタリング(Consistency-Guided Filtering Module)を導入し、合成した終端フレームを実際の専門家デモのフレームにアンカーすることで、物理的に破綻した軌道を棄却する。
  • 複数の実世界の操作タスクに関する実験で大幅な改善が示され、たとえば5つのデモのみでソフトな袋押しにおいて93.3%の成功率を達成している。また著者らは公開コードも提供している。

Abstract

模倣学習はロボットの制御方策を訓練するための強力な枠組みですが、その性能は誤差の増幅によって制限されます。すなわち、わずかな方策の不正確さが、訓練データセット内では見られない分布外(OOD)の状態へロボットを導いてしまう可能性があり、その状態では方策がさらに大きな誤差を生成することになります。結果として、最終的に失敗へ至ります。Data Aggregation(DAgger)という枠組みはこの問題への対処を試みますが、学習プロセスにおける継続的な人手介入への依存は、スケーラビリティを大幅に制限します。本論文では、人手を介入させることなくWorld Modelsを活用してOOD回復データを合成する、効率的なデータ集約フレームワークであるWM-DAggerを提案します。具体的には、アイ・ハンド(手先視)型のロボットアームによる操作タスクを対象とし、さらにデモンストレーションは少数(few-shot)のみを用います。誤解を招くデータを合成してしまうことを避け、World Modelsに内在する幻覚(hallucination)の問題を克服するために、本フレームワークでは2つの主要な仕組みを導入します:(1)誤った教師信号を防ぐために、タスクに特化した回復行動を生成するCorrective Action Synthesis Module、ならびに(2)専門家デモンストレーションにおける対応する実フレームへ終端の合成フレームをアンカーすることで、物理的に実現不可能な軌道を破棄するConsistency-Guided Filtering Moduleです。我々は、WM-DAggerを複数の実世界ロボットタスクに対して徹底的に検証しました。その結果、提案手法は成功率を大きく改善し、デモンストレーション5件のみでソフトなバッグ(bag)押しにおいて93.3の成功率を達成しました。ソースコードは https://github.com/czs12354-xxdbd/WM-Dagger で公開されています。