要旨: 本論文は、ゼロショットのスケッチに基づく3D形状検索(ZS-SBSR)に対するテキストから画像への拡散モデルの初めての検討を提示する。既存のスケッチに基づく3D形状検索手法は、カテゴリの教師信号が存在しないこと、ならびにスケッチ入力が極端に疎であることから、ゼロショット設定ではうまく機能できない。我々の主要な洞察は、大規模に事前学習された拡散モデルが本質的にオープンボキャブラリ能力と強い形状バイアスを備えており、ゼロショットの視覚検索に適しているという点である。我々は固定したStable Diffusionバックボーンを活用し、スケッチとレンダリングされた3Dビューの双方について、中間のU-Net層から識別的表現を抽出し、集約する。拡散モデルは、スケッチが極端に抽象的で疎であることに加え、自然画像からの大きなドメインギャップによって、スケッチに対しては困難を抱える。この制約をコストのかかる再学習なしで克服するために、我々は、CLIPから補完的な視覚的手がかりとテキスト的手がかりを用いて固定拡散バックボーンを条件付けする、マルチモーダルな特徴強化戦略を提案する。これにより、意味的文脈の捕捉能力を明確に向上させ、スケッチの輪郭に焦点を当てる。具体的には、事前学習済みのCLIP視覚エンコーダから得られる大域的および局所的な視覚特徴を注入し、さらに、BLIPによって生成されたハードなテキスト記述に、学習可能なソフトプロンプトを組み合わせることで、強化されたテキスト誘導を取り入れる。加えて、ネガティブサンプルが十分に分離された後、正対(positive pair)の引き寄せを動的に強化するためにCircle-T損失を用いる。これにより、スケッチのノイズに適応し、より効果的なスケッチ-3Dの整合を可能にする。2つの公開ベンチマークに対する大規模な実験により、本手法がZS-SBSRにおける最先端アプローチを一貫して上回ることを示す。
Diff-SBSR:マルチモーダル特徴強化による拡散モデルの学習—ゼロショットのスケッチベース3D形状検索
arXiv cs.CV / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、カテゴリー教師なしとスケッチ入力の極端なスパース性により難しくなるゼロショット環境を対象に、ゼロショット・スケッチベース3D形状検索(ZS-SBSR)へテキストto画像拡散モデルを適用する最初の試みとしてDiff-SBSRを提案する。
- 凍結したStable Diffusionバックボーンを用い、中間U-Net層からスケッチ入力とレンダリングした3Dビュー双方のための識別的なマルチモーダル特徴を抽出・集約し、拡散モデルのオープンボキャブラリ能力と形状バイアスを活用する。
- スケッチの抽象度・スパース性と自然画像とのドメインギャップを、コストの高い再学習なしで緩和するために、CLIP由来の視覚特徴と、BLIPで生成したハード記述にソフトプロンプトを組み合わせた強化テキスト指示で凍結拡散モデルを条件付けする。
- Circle-T損失を導入し、ネガティブが十分に離れた段階でポジティブ対の引き寄せを動的に強めることで、スケッチノイズ下でもスケッチと3Dのアラインメントを改善する。
- 2つの公開ベンチマークでの実験により、Diff-SBSRがZS-SBSRにおける従来の最先端手法を一貫して上回ることが示される。


