Hoi3DGen: 3Dで高品質なヒューマン-オブジェクト相互作用を生成

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

要点

  • Hoi3DGenは、入力プロンプトに忠実に従う高品質なテクスチャ付きヒューマン-オブジェクト相互作用のメッシュを生成する完全なテキスト→3Dパイプラインを提供します。
  • このアプローチは、ヤヌス問題とデータ不足を、マルチモーダル大規模言語モデルを用いて現実的で高品質な相互作用データをキュレーションすることで対処します。
  • このフレームワークは、相互作用の忠実度を桁違いに改善し、テキストの整合性でベースラインを4〜15倍、3Dモデル品質で3〜7倍上回ります。
  • 多様なカテゴリや相互作用タイプに対して強い一般化能力を示しつつ、高品質な3D生成を維持します。
  • 本研究は、信頼性が高くプロンプトに忠実な3Dヒューマン-オブジェクト相互作用を提供することで、より現実的なAR/XRおよびゲームアプリケーションの実現を可能にします。
本文: arXiv:2603.12126v1 アナウンス種別: 新規 要旨: テキストから3Dのヒューマン-オブジェクト相互作用をモデリング・生成することは、AR、XR、ゲームのアプリケーションにとって極めて重要です。既存のアプローチは多くの場合、テキストから画像モデルへのスコア蒸留に依存しますが、結果はヤヌス問題の影響を受け、高品質な相互作用データの不足のため、テキストプロンプトに忠実に従いません。私たちはHoi3DGenを導入します。テキストの入力相互作用説明を正確に追従する高品質なテクスチャ付きヒューマン-オブジェクト相互作用のメッシュを生成するフレームワークです。最初にマルチモーダル大規模言語モデルを活用して現実的で高品質な相互作用データをキュレーションし、次に完全なテキスト→3Dパイプラインを作成します。これにより、相互作用の忠実性は桁違いの改善を達成します。我々の手法は、ベースラインをテキストの整合性で4〜15倍、3Dモデル品質で3〜7倍上回り、多様なカテゴリと相互作用タイプに対して強い一般化を示しつつ、高品質な3D生成を維持します。