SIC3D: スタイル画像条件付き テキストから3Dへのガウシアン・スプラッティング生成

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • SIC3Dは、2段階の画像条件付きテキストから3D生成パイプラインであり、2D拡散スタイルのガイダンスと3Dガウシアン・スプラッティングを組み合わせることで、テキストと参照画像から制御可能な3Dオブジェクトを生成します。
  • 第1段階では、テキストから3DGSを生成するテキストから3DGSモデルを用いて、自然言語入力に由来する幾何学の合成を改善することを目的とします。
  • 第2段階のスタイライゼーションでは、提案するVariational Stylized Score Distillation(VSSD)ロスにより、参照画像から3DGS表現へスタイルを転送します。このロスは、グローバルおよびローカルのテクスチャパターンの双方を対象とします。
  • SIC3Dにはスケーリング正則化が含まれており、アーティファクトを低減し、幾何学と外観のアライメント過程で意図したスタイルパターンをより適切に保持します。
  • 著者らは、SIC3Dが幾何学的な忠実性とスタイルの遵守を向上させ、先行するテキストから3Dの手法よりも定性的および定量的に優れた性能を達成すると報告しています。

Abstract

近年のテキストから3Dオブジェクトを生成する研究の進展により、2D拡散モデルと微分可能な3D表現を活用することで、テキスト入力から詳細なジオメトリを合成できるようになってきました。しかし、これらの手法はしばしば、テキストモダリティの制約に起因して、制御性が限定的であり、テクスチャが曖昧になるという問題を抱えています。これに対処するために、本論文では、3Dガウススパッティング(3DGS)を用いた、制御可能な画像条件付きテキストから3D生成パイプラインであるSIC3Dを提案します。SIC3Dには2つの段階があります。第1段階では、テキストからテキストから3DGS生成モデルによって3Dオブジェクトの内容を生成します。第2段階では、参照画像から3DGSへスタイルを転送します。このスタイライズ段階では、新しい変分スタイライズ・スコア蒸留(VSSD)損失を導入し、ジオメトリと外観の間で生じる競合を抑えつつ、グローバルおよびローカルの両方のテクスチャパターンを効果的に捉えます。さらに、アーティファクトの出現を防ぎ、スタイル画像に由来するパターンを保持するために、スケーリング正則化を適用します。広範な実験により、SIC3Dは幾何学的な忠実性とスタイル適合性を向上させ、定性的評価と定量的評価の両方において従来手法よりも優れていることが示されます。