フリーハンドスケッチからの幾何学的整合性を持つマルチビュー・シーン生成

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、フリーハンドスケッチ1枚から幾何学的に整合したマルチビュー・シーンを生成する新手法を提案しており、スケッチが曖昧で空間的に歪んだ入力である点に対処しています。
主な貢献として、約9k件規模のキュレーションされたスケッチ→マルチビューのデータセット、幾何学的な帰納バイアスをビデオトランスフォーマに注入するParallel Camera-Aware Attention Adapters（CA3）、およびStructure-from-Motionに基づくSparse Correspondence Supervision Loss（CSL）を提示しています。
提案フレームワークは、参照画像・反復的なリファイン・シーンごとの最適化を不要にし、全ビューを単一のデノイジング過程で生成することで、複雑さとコストを抑えることを狙っています。
実験では2段階ベースラインに対して大幅な改善が報告されており、FIDで60%以上のリアリティ向上、Corr-Accで23%の幾何学的整合性改善、最大3.7倍の推論高速化が示されています。