InternScenes:大規模にシミュレーション可能な、現実的なレイアウトを備えた屋内シーンデータセット

arXiv cs.RO / 2026/4/29

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文では、Embodied AI を支えるため、従来データセットよりも多様性と現実的なレイアウトを強化した新しい大規模屋内 3D シーンデータセット「InternScenes」が提案される。
  • InternScenes は約 40,000 の多様なシーンと合計 1.96M の 3D オブジェクトを含み、15 のシーンタイプと 288 のオブジェクトクラスにまたがり、特に小さなアイテムを大量に保持して現実味のある複雑な配置を目指している。
  • 実データからシミュレーションへ置き換えるレプリカ作成、インタラクティブ性を高めるためのインタラクティブオブジェクトの組み込み、物理シミュレーションによる衝突解消を含む包括的な処理パイプラインが提供される。
  • ベンチマークとして「シーンレイアウト生成」と「ポイント・ゴールナビゲーション」を用いて価値が示され、より複雑で現実的なレイアウトが新たな課題を生む一方で、両タスクでの学習スケールを後押しできることが示唆される。
  • データセット、モデル、ベンチマークはコミュニティ全体のためにオープンソース化する方針が述べられている。

Abstract

身体化されたAI(Embodied AI)の発展は、シーンの多様性と現実的なレイアウトを特徴とする、大規模でシミュレーション可能な3Dシーンデータセットに大きく依存しています。しかし、既存のデータセットは一般に、データ規模または多様性の面での制約、細かなアイテムのない整えられた(サニタイズされた)レイアウト、そして深刻な物体の衝突といった問題を抱えています。これらの欠点に対処するために、私たちは extbf{InternScenes} を提案します。これは、3つの異なるシーンソース、実世界のスキャン、手続き的に生成されたシーン、そしてデザイナーが作成したシーンを統合することで約40,000の多様なシーンからなる、新しい大規模でシミュレーション可能な屋内シーンデータセットです。含まれる3Dオブジェクトは1.96Mであり、15の一般的なシーンタイプと288のオブジェクトクラスをカバーします。特に、シーン内の大量の小物アイテムを保持することで、平均41.5個の物体が1領域に存在する、現実的で複雑なレイアウトを実現しています。包括的なデータ処理パイプラインにより、実世界のスキャンに対して実物からシミュレーションへのレプリカを作成することでシミュレーション可能性を担保し、これらのシーンにインタラクティブな物体を組み込むことでインタラクティビティを高め、物体の衝突は物理シミュレーションによって解決します。私たちは、InternScenes の価値を2つのベンチマーク応用で示します。すなわち、シーンレイアウト生成と、ポイントゴールナビゲーションです。これらはいずれも、複雑で現実的なレイアウトがもたらす新たな課題を示しています。さらに重要なのは、InternScenes が両タスクに対するモデル学習のスケールアップへの道を切り開き、そのような複雑なシーンでの生成とナビゲーションを可能にする点です。データ、モデル、ベンチマークをオープンソース化し、コミュニティ全体の利益につなげることを約束します。