Fus3D：フィードフォワード・ジオメトリ・トランスフォーマの潜在表現から統合された3D幾何を復号する

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Fus3Dは、非整列な画像コレクションからカメラキャリブレーションや後処理の融合なしで、3秒未満のフィードフォワード手法により密なSDF（符号付き距離関数）を回帰することを提案している。
既存手法が変換器の中間特徴を各ビュー向けの予測ヘッドに分岐して捨ててしまう点に着目し、マルチビュー幾何トランスフォーマ特徴から直接3D抽出するための学習済みのボリューム抽出（ボクセル化した正準埋め込み）を用いる。
クロスアテンションとセルフアテンションを交互に行いながら、マルチビュー幾何情報を吸収する構造化されたボリューメトリック潜在グリッドを生成し、簡単な畳み込みデコーダでSDFへ写像する。
深度マップや3DアセットからSDFを生成して行う、妥当性を意識したスケーラブルな教師信号設計を導入し、非ウォータタイト（watertight）メッシュなど現実的な課題に対処している。
スパース/デンスいずれのビュー設定でも距離値が完全かつ整った形で得られ、幾何学的に妥当な補完が示されている。

AI Business

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to