REVIVE 3D:符号化された膨張(Inflated)事前分布によるボリューム拡張のためのリファインメント

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、平面の2D画像から“ふくらみのある(voluminous)”3Dアセットを生成するための、2段階のプラグアンドプレイ型パイプライン「REVIVE 3D」を提案し、入力画像が3D情報に乏しい課題に取り組む。
  • Stage 1では、前景シルエットを膨張させて大域的なボリュームを復元しつつ、部位に応じた詳細を重ねて局所的な構造を保持することで「Inflated Prior」を構築する。
  • Stage 2では「3D Latent Refinement」により、事前分布の潜在表現にガウスノイズを注入してから除去(denoise)し、幾何学的な手がかりを使ってバックボーンの事前学習済み3D知識を活用する。
  • 本フレームワークは、画像条件付きの3D編集にも対応している。
  • さらに、Compactness と Normal Anisotropy という指標を提案し、ユーザー研究とあわせて“ボリューム感”や表面品質に対する人間の知覚と整合することを示し、厳しい平面画像データセットで定量・定性ともに最先端性能を達成したと報告している。

Abstract

近年の生成モデルは、2D画像から多様な3Dアセットを生成する上で強い性能を示しており、これはコンピュータビジョンおよびグラフィックスにおける基礎的な研究課題です。しかし、これらのモデルは、3Dの手がかりが限られた平坦な画像が入力である場合、大量の3Dアセットを生成することに依然として苦労しています。私たちは、平坦な画像からボリュームのある3Dアセットを生成するための、2段階のプラグアンドプレイ型パイプラインであるREVIVE 3Dを提案します。第1段階では、前景のシルエットを膨張させてグローバルなボリュームを復元し、さらに部分に応じた詳細を重ね合わせることで局所的な構造を捉えます。第2段階では、3D潜在表現の洗練(3D Latent Refinement)によって、膨張した優先(Inflated Prior)の潜在にガウスノイズを注入し、その後、ノイズを除去します。ここでは、優先の幾何学的手がかりを用いて、バックボーンの事前学習済みの3D知識を活用します。さらに、私たちの枠組みは、画像条件付きの3D編集もサポートします。ボリュームと表面の平坦さを定量化するために、コンパクトネス(Compactness)とノーマル異方性(Normal Anisotropy)を提案します。ユーザスタディによってコンパクトネスとノーマル異方性を検証し、これらの指標がボリュームと品質に関する人間の知覚と一致することを示します。広範な定性的および定量的評価に基づいて、REVIVE 3Dが難易度の高い平坦画像データセットにおいて最先端の性能を達成することを示します。