IGen:オープンワールド画像からロボット学習のためのスケーラブルなデータ生成

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • IGenは、オープンワールド画像から現実的な視覚観測と実行可能なロボット行動の両方を生成することで、ロボット学習のデータ生成をスケールさせるための提案フレームワークである。
  • この手法は、非構造化された2Dピクセルを、構造化された3Dシーン表現へと変換し、操作タスクを支えることのできるシーン理解を可能にする。
  • それは、視覚言語モデルの推論を用いてタスク指示を高レベルの計画へと変換し、その後、低レベルのSE(3) のエンドエフェクタ姿勢シーケンスを生成する。
  • これらの姿勢シーケンスから、IGenはダイナミックなシーンの時間発展を合成し、可視運動(ビジュオモータ)トレーニングに適した、時間的に整合性のある画像観測をレンダリングする。
  • 実験では、IGenで合成したデータのみによって学習したポリシーが、実世界データで学習したポリシーと同等の性能を達成できることが報告されており、オープンワールド画像を汎用的なロボットポリシー学習に活用できる可能性が示唆されている。

要旨: 一般化ロボット政策の台頭は、大規模な学習データへの指数関数的な需要を生み出してきました。しかし、オンロボットでのデータ収集は労力を要し、しばしば特定の環境に限られます。対照的に、オープンワールド画像は現実世界の多様な場面を広く捉えており、ロボットの操作タスクと自然に整合するため、低コストで大規模なロボットデータ獲得への有望な道筋となります。この可能性がある一方で、関連するロボットの行動が欠けているため、オープンワールド画像をロボット学習に実用的に活用することが難しくなり、この豊富な視覚リソースは大部分が未活用のまま残っています。このギャップを埋めるために、本研究ではIGenという枠組みを提案します。IGenは、オープンワールド画像から、現実的な視覚観測と実行可能な行動をスケーラブルに生成します。IGenはまず、非構造化された2Dピクセルを、シーン理解と操作に適した構造化3Dシーン表現へと変換します。次に、視覚と言語のモデルの推論能力を活用して、シーン固有のタスク指示を高レベルの計画へと変換し、SE(3)のエンドエフェクタ姿勢系列として低レベルの行動を生成します。これらの姿勢から、動的なシーンの変化を合成し、時間的に一貫した視覚観測をレンダリングします。実験により、IGenが生成する視覚運動データの高品質さが検証され、さらにIGenで合成されたデータのみに基づいて学習した政策が、実世界データで学習したものと同等の性能を達成することが示されます。これは、IGenが、オープンワールド画像から一般主義的なロボット政策学習のためのスケーラブルなデータ生成を支える可能性を持つことを示しています。