CRAFT:両腕ロボットのデータ生成のためのビデオ拡散

arXiv cs.RO / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CRAFT は、訓練用の関連するアクションラベルを伴いながら、スケーラブルで時間的に一貫した両腕ロボットのデモンストレーション動画を生成する、拡散ベースのフレームワークを提案する。
  • 本手法は、シミュレータの軌道から得られる Canny/エッジベースの構造的手がかりによりビデオ拡散を条件付けし、物理的にもっともらしい軌道の変動と、統一されたデータ拡張パイプラインを可能にする。
  • オブジェクトの姿勢変更、カメラの視点/照明/背景の変化、異胴体(cross-embodiment)への転移、多視点合成など、多様な合成バリエーションに対応する。
  • ほんの少数の現実世界のデモンストレーションから開始し、実機ロボットのリプレイを避けることで、高コストかつ多様性に乏しい現実データの制約に対処し、Sim2Real 訓練の改善を目指す。
  • シミュレーションおよび実世界の両方の両腕タスクに関する実験により、既存の拡張手法や単純なデータ規模拡大ベースラインよりも高い成功率が示され、デュアルアーム操作に対するより良い汎化が示唆される。

Abstract

両手ロボットのデモンストレーションからの学習は、現実世界のデータのコストと視覚的多様性が狭いことによって根本的に制約されており、視点、物体の構成、機体の形(エンボディメント)にまたがるポリシーの頑健性を制限します。私たちは、動画拡散トランスフォーマー(Video Diffusion Transformers)を用いた、Canny に導かれたロボットデータ生成(CRAFT)を提案します。これは、時間的に整合した操作動画を合成しつつ、行動ラベルを生成する、スケーラブルな両手デモンストレーション生成のための動画拡散ベースの枠組みです。シミュレータで生成した軌道から抽出したエッジベースの構造的手がかりにより動画拡散を条件付けることで、CRAFTは物理的にもっともらしい軌道のバリエーションを生成し、物体の姿勢変更、カメラ視点、照明および背景の変化、クロスエンボディメント転移、さらに多視点合成にまたがる統一的な拡張(augmentation)パイプラインを支えます。私たちは、事前学習済みの動画拡散モデルを活用し、シミュレータで生成した動画に、シミュレーション軌道から得られる行動ラベルを組み合わせて、行動整合的なデモンストレーションへと変換します。少数の現実世界のデモンストレーションから開始するだけで、CRAFTは大規模で視覚的に多様な、フォトリアルな学習データ一式を生成し、現実ロボットでデモンストレーションを再生する必要(Sim2Real)を回避します。シミュレーションおよび現実世界の両手タスクにおいて、CRAFTは既存の拡張手法や単純なデータスケーリングよりも成功率を向上させます。これは、拡散ベースの動画生成が、デモンストレーションの多様性を大幅に拡張し、デュアルアーム操作タスクの汎化性能を改善できることを示しています。プロジェクトのWebサイトは次のとおりです: https://craftaug.github.io/