テキストから画像生成における視点トークン学習によるカメラ制御

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習した「視点トークン」によりカメラの視点をパラメータ化して、テキストから画像生成における精密なカメラ制御を高める手法を提案します。
著者らは、幾何学的な教師信号のための3Dレンダリング画像と、外観や背景の多様性を得るためのフォトリアルな拡張画像を組み合わせた、キュレーション済みデータセットで生成モデルを微調整します。
実験の結果、提案手法は画像品質とプロンプト整合性を保ちながら、視点条件付き生成の精度で最先端の性能を達成したと示されています。
先行手法が物体固有の見た目の相関に過適合しがちなのに対し、本手法の視点トークンは因子分解された幾何表現を学習し、未見の物体カテゴリへも汎化する点を強調しています。
本研究は、テキスト・ビジョンの潜在空間に3Dカメラ構造を明示的に組み込むことで幾何学的に意識した表現を与え、より制御可能で幾何学に配慮したプロンプトへの道を示すと結論づけています。

概要: 現在のテキストから画像への生成モデルは、自然言語だけで正確なカメラ制御を提供することが難しい。本研究では、パラメトリックなカメラ・トークンを学習することで、テキストから画像生成における大域的なシーン理解に基づく、正確なカメラ制御のための枠組みを提示する。我々は、幾何学的な教師信号のための3Dレンダリング画像と、見た目や背景の多様性のためのフォトリアルな拡張を組み合わせた、キュレーション済みデータセット上で、視点条件付きテキストから画像生成向けに画像生成モデルを微調整する。定性的および定量的な実験により、本手法が画像品質とプロンプト整合性を維持しながら最先端の精度を達成することを示す。物体固有の見た目の相関に過度に適合してしまう先行手法とは異なり、我々の視点トークンは分解された幾何学的表現を学習し、未見の物体カテゴリへと転移する。本研究は、テキスト-視覚の潜在空間に明示的な3Dカメラ構造を与えられることを示し、テキストから画像生成における幾何学的に意識したプロンプトへとつながる道筋を提供する。プロジェクトページ: https://randdl.github.io/viewtoken_control/