InHabit:画像基盤モデルを活用したスケーラブルな3D人の配置
arXiv cs.CV / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 人が環境と意味のある形で相互作用する3Dデータが不足している課題に対し、InHabitは3Dシーンへ相互作用する人を自動かつスケーラブルに配置する手法を提案している。
- InHabitは render-generate-lift の流れにより、2Dのインターネット規模の画像基盤モデルが暗黙に持つ「人と環境の常識」を3Dへ移す方針で、視覚言語モデルで文脈に合う行動を提案し、画像編集モデルで人を挿入し、最適化でSMPL-Xの物理的に妥当な身体をシーン形状に整合させる。
- Habitat-Matterport3D上で適用し、800の建物スケールのシーンにまたがる78Kサンプルからなる、完全な3Dジオメトリ、SMPL-Xボディ、RGB画像を含む大規模なフォトリアル3D人-シーン相互作用データセットを生成している。
- 合成データを標準学習データに加えることで、RGBベースの3D人-シーン再構成や接触(コンタクト)推定が改善し、知覚ユーザースタディでも最先端手法より78%のケースで好まれる結果が示されている。
- 単純な合成ヒューリスティックではなく、基盤モデルとジオメトリに配慮した最適化を組み合わせることで、より豊かな3D学習データを作れることを実証している。



