Genie Sim 3.0:ヒト型ロボット向けの高精細な包括的シミュレーションプラットフォーム

arXiv cs.RO / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • Genie Sim 3.0は、ロボットのマニピュレーション学習モデルの訓練と評価を改善することを目的とした、統一的で高精細なシミュレーションプラットフォームを提供します。
  • LLMを用いるGenie Sim Generatorが、自然言語の指示から高精細なシーンを構築し、多様な環境に素早く・多面的に一般化できる点が中核です。
  • LLMによる自動評価を先駆けて行う新しいベンチマークを提示し、大量の評価シナリオをLLMで生成し、さらに視覚言語モデル(VLM)で評価パイプラインを構築します。
  • オープンソースのデータセットとして、200以上のタスクにまたがる10,000時間超の合成データを公開し、制御された条件下でゼロショットのsim-to-real転移が堅牢であることを実験で示します。
  • 合成データは、スケーラブルな方策(ポリシー)訓練において現実データの有効な代替になり得るという立場で、コードとデータセットのリンクも提供されています。

抄録: 堅牢で汎用性の高いロボット学習モデルの開発は、大規模で多様な学習データと信頼できる評価ベンチマークの利用可能性に厳密に依存している。実世界でデータを収集することは、コスト面での負担が大きく、またスケールしにくいという課題がある。さらに、従来のシミュレーション向けベンチマークは断片化が進んでいたり、対象範囲が狭かったり、もしくは実環境への転移(sim-to-real transfer)を可能にするのに十分な忠実度が欠けていたりすることが多い。これらの課題に対処するため、ロボットのマニピュレーション向けの統一型シミュレーションプラットフォームであるGenie Sim 3.0を提案する。自然言語の指示から高忠実度なシーンを構築する、言語モデル(LLM)駆動のツールであるGenie Sim Generatorを提示する。その主たる強みは、迅速かつ多次元にわたる汎化にあり、それによって、多様な環境を合成して大規模なデータ収集と堅牢な方策(ポリシー)の評価を支えることができる。さらに、LLMを用いた自動評価への適用を先駆ける最初のベンチマークを導入する。これは、LLMを用いて評価シナリオを大量生成し、Vision-Language Model(VLM)を用いて自動評価の評価パイプラインを確立する。加えて、200を超えるタスクにまたがる10,000時間以上の合成データからなるオープンソースのデータセットも公開する。体系的な実験を通じて、提案するオープンソースデータセットが備える、堅牢なゼロショットのsim-to-real転移能力を検証し、制御された条件のもとでは、合成データがスケーラブルな方策学習における実世界データの効果的な代替として機能し得ることを示す。コードおよびデータセットの詳細は以下を参照してほしい: https://github.com/AgibotTech/genie_sim。

Genie Sim 3.0:ヒト型ロボット向けの高精細な包括的シミュレーションプラットフォーム | AI Navigate