InHabit：画像基盤モデルを活用したスケーラブルな3D人の配置

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

人が環境と意味のある形で相互作用する3Dデータが不足している課題に対し、InHabitは3Dシーンへ相互作用する人を自動かつスケーラブルに配置する手法を提案している。
InHabitは render-generate-lift の流れにより、2Dのインターネット規模の画像基盤モデルが暗黙に持つ「人と環境の常識」を3Dへ移す方針で、視覚言語モデルで文脈に合う行動を提案し、画像編集モデルで人を挿入し、最適化でSMPL-Xの物理的に妥当な身体をシーン形状に整合させる。
Habitat-Matterport3D上で適用し、800の建物スケールのシーンにまたがる78Kサンプルからなる、完全な3Dジオメトリ、SMPL-Xボディ、RGB画像を含む大規模なフォトリアル3D人-シーン相互作用データセットを生成している。
合成データを標準学習データに加えることで、RGBベースの3D人-シーン再構成や接触（コンタクト）推定が改善し、知覚ユーザースタディでも最先端手法より78%のケースで好まれる結果が示されている。
単純な合成ヒューリスティックではなく、基盤モデルとジオメトリに配慮した最適化を組み合わせることで、より豊かな3D学習データを作れることを実証している。

Abstract

人間と同じように3Dシーンを理解するために身体性のあるエージェントを学習するには、人が多様な環境と意味のある形で相互作用している大規模データが必要ですが、そのようなデータは不足しています。現実世界でのモーションキャプチャはコストが高く、制御された環境に限られます。一方で、既存の合成データセットは単純な幾何学的ヒューリスティックに依存しており、豊かなシーン文脈を無視しています。これに対して、インターネット規模のデータで訓練された2D基盤モデルは、人と環境の相互作用に関するコモンセンス（常識的知識）を暗黙的に獲得しています。この知識を3Dへ転送するために、相互作用する人間で3Dシーンを満たすための、完全自動かつスケーラブルなデータ生成器であるInHabitを提案します。InHabitは、render-generate-lift（レンダー・生成・リフト）という原理に従います。すなわち、レンダーされた3Dシーンが与えられると、視覚言語モデルが文脈に即した意味のある行動を提案し、画像編集モデルが人間を挿入し、最適化手続きによって編集結果をシーンの幾何に整合した、物理的にもっともらしいSMPL-Xボディへとリフトします。Habitat-Matterport3Dに適用すると、InHabitは、最初の大規模なフォトリアルな3D人間-シーン相互作用データセットを生成します。これには、完全な3D幾何、SMPL-Xボディ、RGB画像を含む、建物スケールの800シーンにまたがる78Kサンプルが含まれます。標準的な訓練データに本サンプルを追加すると、RGBベースの3D人間-シーン再構成と接触推定が改善され、知覚ユーザースタディでは、我々のデータは最先端手法より78%のケースで好まれることが示されます。

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

日経XTECH

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

ビルド・イン・パブリック：AI画像SaaSを作って学んだこと

Dev.to

バイオテック主導の活況—中国企業8社が香港の好調な株式市場に殺到

SCMP Tech

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

InHabit：画像基盤モデルを活用したスケーラブルな3D人の配置

要点

Abstract

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

ビルド・イン・パブリック：AI画像SaaSを作って学んだこと

バイオテック主導の活況—中国企業8社が香港の好調な株式市場に殺到

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩む キャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

ビルド・イン・パブリック：AI画像SaaSを作って学んだこと

バイオテック主導の活況—中国企業8社が香港の好調な株式市場に殺到

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に