GeoRelight:柔軟なマルチモーダル拡散トランスフォーマーによる共同幾何学的リライティングと再構成の学習

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • GeoRelightは、単一写真から人物のリライティングを行う際に生じる曖昧さ(2D画像が3D形状、固有の見た目、照明を複雑に絡めてしまう問題)を解決するため、3D幾何と照明に関係する見えをまとめて推定します。
  • この手法は、統一型のマルチモーダル拡散トランスフォーマー(DiT)を用いることで、逐次パイプラインの誤差蓄積を避けつつ、3D幾何を明示的に取り込んで物理的な整合性を高めます。
  • isotropic NDC-Orthographic Depth(iNOD)という新しい表現を提案しており、歪みのない3D表現として潜在拡散モデルと整合するよう設計されています。
  • 合成データに加えて自己ラベル付けした実データを組み合わせる混合データによる学習戦略を用いることで、頑健性と性能の向上を図っています。
  • 幾何とリライティングを共同で解くことで、幾何を明示的に活用しない既存手法だけでなく逐次方式よりも良い結果が得られると報告されています。

要旨: 1枚の写真から人物をリライティングすることは魅力的だが不適切(ill-posed)な課題です。2D画像は、3D幾何、固有の見え( intrinsic appearance )、照明を曖昧に絡めてしまうためです。現在の手法は、誤差が蓄積してしまう逐次的なパイプラインを用いるか、あるいはリライティングの際に3D幾何を明示的に活用しないため、物理的な整合性が制限されます。リライティングと3D幾何の推定は相互に有益な課題であることから、両方を同時に解く統一型のマルチモーダル・ディフュージョン・トランスフォーマー(Multi-Modal Diffusion Transformer;DiT)を提案します。それが GeoRelight です。これを可能にするための2つの重要な技術的貢献は以下の通りです。歪みのない3D表現であり潜在ディフュージョン・モデルと互換性のある異方性( isotropic ) NDC-オルソグラフィック深度(iNOD)。そして、合成データと自動ラベル付けした実データを組み合わせる戦略的な混合データ学習手法です。幾何とリライティングを共同で解くことで、GeoRelight は、逐次モデルと、幾何を無視していた従来システムの両方を上回る性能を実現します。