InHabit:画像基盤モデルを活用したスケーラブルな3D人の配置

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 人が環境と意味のある形で相互作用する3Dデータが不足している課題に対し、InHabitは3Dシーンへ相互作用する人を自動かつスケーラブルに配置する手法を提案している。
  • InHabitは render-generate-lift の流れにより、2Dのインターネット規模の画像基盤モデルが暗黙に持つ「人と環境の常識」を3Dへ移す方針で、視覚言語モデルで文脈に合う行動を提案し、画像編集モデルで人を挿入し、最適化でSMPL-Xの物理的に妥当な身体をシーン形状に整合させる。
  • Habitat-Matterport3D上で適用し、800の建物スケールのシーンにまたがる78Kサンプルからなる、完全な3Dジオメトリ、SMPL-Xボディ、RGB画像を含む大規模なフォトリアル3D人-シーン相互作用データセットを生成している。
  • 合成データを標準学習データに加えることで、RGBベースの3D人-シーン再構成や接触(コンタクト)推定が改善し、知覚ユーザースタディでも最先端手法より78%のケースで好まれる結果が示されている。
  • 単純な合成ヒューリスティックではなく、基盤モデルとジオメトリに配慮した最適化を組み合わせることで、より豊かな3D学習データを作れることを実証している。

Abstract

人間と同じように3Dシーンを理解するために身体性のあるエージェントを学習するには、人が多様な環境と意味のある形で相互作用している大規模データが必要ですが、そのようなデータは不足しています。現実世界でのモーションキャプチャはコストが高く、制御された環境に限られます。一方で、既存の合成データセットは単純な幾何学的ヒューリスティックに依存しており、豊かなシーン文脈を無視しています。これに対して、インターネット規模のデータで訓練された2D基盤モデルは、人と環境の相互作用に関するコモンセンス(常識的知識)を暗黙的に獲得しています。この知識を3Dへ転送するために、相互作用する人間で3Dシーンを満たすための、完全自動かつスケーラブルなデータ生成器であるInHabitを提案します。InHabitは、render-generate-lift(レンダー・生成・リフト)という原理に従います。すなわち、レンダーされた3Dシーンが与えられると、視覚言語モデルが文脈に即した意味のある行動を提案し、画像編集モデルが人間を挿入し、最適化手続きによって編集結果をシーンの幾何に整合した、物理的にもっともらしいSMPL-Xボディへとリフトします。Habitat-Matterport3Dに適用すると、InHabitは、最初の大規模なフォトリアルな3D人間-シーン相互作用データセットを生成します。これには、完全な3D幾何、SMPL-Xボディ、RGB画像を含む、建物スケールの800シーンにまたがる78Kサンプルが含まれます。標準的な訓練データに本サンプルを追加すると、RGBベースの3D人間-シーン再構成と接触推定が改善され、知覚ユーザースタディでは、我々のデータは最先端手法より78%のケースで好まれることが示されます。