ロボット制御のための反復的な合成(コミポジショナル)データ生成

arXiv cs.RO / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボットの操作デモンストレーション収集にかかる高いコストに取り組み、既存の生成手法が、複数オブジェクト・複数ロボット・複数環境からなるタスク空間の合成(コミポジショナル)構造を十分に活用できていないと論じる。
  • ロボットのダイナミクスを、ロボット固有・物体固有・障害物固有・目的(オブジェクティブ)固有の成分に分解する意味論的合成(コミポジショナル)ディフュージョン・トランスフォーマーを提案し、注意機構を用いてこれらの要因がどのように相互作用するかを学習する。
  • モデルは限られた一部のタスクで学習した後、未見のタスクの組み合わせに対して遷移データをゼロショット生成し、新たな設定における制御ポリシーの学習を可能にする。
  • 反復的な自己改善ループにより、生成した合成遷移をオフライン強化学習で検証し、検証済みデータを次の学習ラウンドへフィードバックする。
  • 結果として、モノリシックおよびハードコードされた合成ベースラインに比べてゼロショット性能が大幅に向上し、保持されたほぼすべてのタスクを解けることが示される。さらに、学習された表現の中で合成構造が自然に立ち現れることを示唆している。