Fus3D: Decoding Consolidated 3D Geometry from Feed-forward Geometry Transformer Latents
arXiv cs.CV / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- Fus3Dは、非整列な画像コレクションからカメラキャリブレーションや後処理の融合なしで、3秒未満のフィードフォワード手法により密なSDF(Signed Distance Field)を回帰することを提案している。
- 既存手法が変換器中間特徴を各ビュー向けの予測ヘッドに分岐して捨ててしまう点に着目し、マルチビュー幾何トランスフォーマ特徴から直接3D抽出するための学習済みのボリューム抽出(ボクセル化した正準埋め込み)を用いる。
- クロスアテンションとセルフアテンションを交互に行いながら、マルチビュー幾何情報を吸収する構造化されたボリューメトリック潜在グリッドを生成し、簡単な畳み込みデコーダでSDFへ写像する。
- 深度マップや3DアセットからSDFを生成して行う、妥当性を意識したスケーラブルな教師信号設計を導入し、非ウォータタイト(watertight)メッシュなど現実的な課題に対処している。
- スパース/デンスいずれのビュー設定でも距離値が完全かつ整った形で得られ、幾何学的に妥当な補完が示されている。
Related Articles

Black Hat Asia
AI Business

Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computer
Simon Willison's Blog
Beyond the Chatbot: Engineering Multi-Agent Ecosystems in 2026
Dev.to

I missed the "fun" part in software development
Dev.to

The Billion Dollar Tax on AI Agents
Dev.to