要旨: スパースビューの3D再構成に関する近年の動向は、2つの異なる道筋をたどってきました。すなわち、完全な幾何構造を伴わずにピクセル整列した点マップを予測するフィードフォワード型の再構成、そして、完全な幾何構造を生成するものの入力の整列がしばしば不十分である生成型の3D再構成です。本論文では、フィードフォワード再構成と3D生成を単一の枠組みに整列した形で組み合わせる、新しい生成型3D再構成手法であるMix3Rを提案します。Mix3Rは、2段階で3D形状を生成します。すなわち、スパースボクセル生成段階と、テクスチャ付き幾何生成段階です。純粋な生成手法とは異なり、最初の段階の生成では、粗い3D構造(スパースボクセル)に加えて、その3D構造に整列した各ビューの点マップとカメラパラメータを共同で生成します。これは、Mixture-of-Transformersアーキテクチャを導入し、フィードフォワード再構成モデルと3D生成モデルの両方に、グローバル自己注意を挿入することで可能になります。これらはいずれも大規模データで事前学習されています。この設計により、事前学習された事前知識を効果的に保持しつつ、2D-3Dの整列をより良く実現できます。スパース3Dボクセルと点マップの、初期の整列された生成結果に基づいて、重なり(オーバーラップ)に基づく注意バイアスを計算し、それを別の事前学習済みのテクスチャ付き幾何生成モデルに直接加えます。これにより、学習なし(トレーニングフリー)で、入力テクスチャを生成された形状へ正しく配置できるようになります。本設計は、フィードフォワード再構成と3D生成の両方に相互の利点をもたらします。フィードフォワード分岐は、生成的3D事前知識に対して自身の予測を根拠づけることを学習し、逆に、3D生成分岐はフィードフォワード分岐から得られる、幾何学的に有益な特徴に条件付けられます。その結果、本手法は、純粋な3D生成手法と比べて、入力整列がより良い3D形状を生成できるだけでなく、従来のフィードフォワード再構成手法よりも高精度なカメラ姿勢推定も同時に実現します。本プロジェクトのページは https://jsnln.github.io/mix3r/ です。
Mix3R:フィードフォワード復元と生成的3Dプライヤを混合し、多視点整合3D復元とポーズ推定を同時に行う
arXiv cs.CV / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Mix3Rは、多視点の整合性とポーズ推定を改善するために、フィードフォワードのピクセル整合復元と生成的な3Dプライヤを単一の枠組みに統合した新しい生成的3D復元手法です。
- この手法は、粗い3D構造を表す疎なボクセル生成と、テクスチャ付き形状生成の2段階で3D出力を作成し、粗い3D構造に整合したまま、ビューごとの点マップとカメラパラメータも同時に生成します。
- Mix3Rは、Mixture-of-Transformersアーキテクチャにより、学習済みのフィードフォワード復元モデルと学習済みの3D生成モデルの両方へグローバルな自己注意を注入し、事前知識(プライヤ)を保持しつつ2D-3D整合性を高めます。
- 疎なボクセルと点マップの初期整合結果から、重なり(オーバーラップ)に基づく注意バイアスを算出し、別のテクスチャ付き形状生成器に加えることで、学習不要で入力テクスチャを生成形状へ正しく配置できるようにします。
- 従来の純粋な生成法やフィードフォワード法と比べて、Mix3Rは3D形状の入力整合がより良く、かつカメラのポーズ推定もより高精度だと報告しています。



