疎なクエリによる画像から3D生成の再考:効率性、容量、入力ビューのバイアス

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、密な3D表現を、学習された3Dアンカー・クエリのコンパクトな集合と学習された拡張オペレータで置き換える、新しい画像から3D生成フレームワーク「SparseGen」を提案する。
  • SparseGenは、各アンカー・クエリを小さな局所的な3Dガウス・プリミティブの集合へと変換し、体積グリッド、トライプレーン、あるいはピクセル整列プリミティブ手法よりも高速な推論と低いメモリ使用を可能にする。
  • 3Dの教師データなしで、整流フロー再構成目的により学習され、疎な条件付けからの汎化性能の向上を目指す。
  • 著者らは、入力ビューのバイアスの低減と容量利用の改善を報告し、疎なクエリ機構が、特定の条件付けビューへの過学習を回避しつつ多視点の忠実度を維持するのに役立つと主張する。
  • 本研究は、入力ビュー・バイアスと表現利用(representation utilization)を定量的に測る指標を提案し、疎な集合潜在の拡張が、効率的な3D生成モデリングに対する実用的な代替であることを裏付ける。

Abstract

本稿では、効率的な画像から3Dへの生成のための新しいフレームワークである SparseGen を提案します。この手法は、入力視点のバイアスが低い一方で、大幅に高速です。密なボリュームグリッド、トライプレーン、またはピクセル整合プリミティブに依存する従来手法とは異なり、我々はシーンを、学習された3Dアンカー問い合わせのコンパクトな疎な集合と、各変換された問い合わせを小さな局所的な3Dガウスプリミティブの集合へデコードする学習済みの拡張演算子によってモデル化します。3Dの監督なしで、整流フローの再構成目的のもとで学習することで、本モデルは幾何と見た目(アピアランス)の重要な領域に表現能力を割り当てることを学習し、多くのメモリと推論時間を大幅に削減しつつ、多視点の忠実性を維持します。入力視点のバイアスと利用率に関する定量的な指標を導入し、疎な問い合わせが条件付け視点への過剰適合を抑えつつ、表現として効率的であることを示します。以上の結果は、疎なセット・潜在(latent)拡張が、効率的な3D生成モデリングのための原理に基づいた実用的な代替案であることを示唆しています。