プロンプトを超えて:分布外形状に対する無条件3D反転

arXiv cs.CV / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最先端のネイティブなテキストから3D生成モデルにおいて、テキストによる誘導が分布外になると、出力がプロンプトに対して敏感であるという前提がしばしば崩れることを示す。
  • 生成過程が潜在空間の「シンク・トラップ(sink traps)」に落ち込み、プロンプト変更に対してモデルが鈍感になることで、出力ジオメトリが反応しなくなる失敗モードを特定する。
  • この問題はモデルの幾何表現力の限界によるものではなく、同じモデルが無条件の生成事前分布を用いることで多様な形状を生成できることを論じる。
  • サンプリング軌跡を分析し、幾何の表現能力と「言語への敏感さ」を切り離すことで、潜在シンクを回避するより頑健なテキストベースの3D形状編集枠組みを提案する。
  • この手法は、分布外の3D形状に対する高精細な意味的操作を可能にし、従来の3Dパイプラインの制約に対処することを目指す。

要旨: テキスト駆動による生成モデルの反転は、2Dまたは3Dコンテンツを操作するための中核的パラダイムであり、テキストに基づく編集、スタイル変換、あるいは逆問題といった数多くの応用を可能にします。 しかし、それは、生成モデルが自然言語のプロンプトに対して依然として敏感であり続けるという仮定に依存しています。 本研究では、最先端のネイティブなテキストから3Dへの生成モデルに対して、この仮定がしばしば崩れることを示します。 生成が進む軌跡が潜在的な「サンクトラップ(sink traps)」へと引き込まれるという、決定的な失敗モードを特定します。これは、モデルがプロンプトの修正に対して鈍感になる領域です。 これらの状況では、入力テキストへの変更が、出力ジオメトリを変化させるような形で内部表現を変えることに失敗します。 重要なのは、これはモデルの extit{幾何学的}な表現力の限界ではないことです。 同じ生成モデルは、広範な多様性をもつ形状を生成する能力を持っているのに対し、本研究が示すように、分布外の extit{text}によるガイダンスに対しては鈍感になってしまいます。 本研究では、この振る舞いを、生成モデルのサンプリング軌跡を解析することで調査し、複雑な幾何形状は、モデルの非条件付きの生成的事前知識を活用することで、依然として表現され生成できることを見出します。 これにより、幾何学的表現力とその言語的な感度を切り離すことで、潜在的サンクを回避しつつ行う、テキストベースの3D形状編集のための、より堅牢な枠組みが実現されます。 提案手法は、現在の3Dパイプラインの限界に対処し、分布外の3D形状に対しても高忠実度な意味的操作を可能にします。 プロジェクトのWebページ: https://daidedou.sorpi.fr/publication/beyondprompts