Know3D:視覚言語モデルからの知識で3D生成をプロンプトする
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、マルチモーダルな大規模言語モデルからの知識を3D生成に注入し、未観測領域をより制御可能にするフレームワーク「Know3D」を提案している。
- VLM(視覚言語モデル)に導かれた拡散(diffusion)アプローチを用い、VLMが意味理解とガイダンスを提供し、拡散モデルがその知識を3D再構成プロセスへ転送する。
- Know3Dは、単一視点の3D生成における曖昧さと、グローバルな構造の事前知識が欠けている点に特に焦点を当てており、バックビュー(観測されていない)領域の生成の改善によってそれに対処する。
- 著者らは、この手法が、しばしば確率的で信頼性に乏しいバックビューの幻覚(hallucination)を、ユーザーの意図に整合した意味的に制御可能な生成パイプラインへと変えると報告している。
- 本研究は、抽象的な指示と幾何学的再構成をよりよく結びつける将来の3D生成モデルに向けた有望な方向性として位置づけられている。