GeRM:物理的に現実的なものからフォトリアルへ生成するレンダリングモデル

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、物理ベースレンダリング(PBR)とフォトリアルなレンダリング(PRR)の間に「P2Pギャップ」があることを指摘している。すなわち、PBRの物理的正しさは、真のフォトリアリズムを実現するために、現実的なジオメトリ/マテリアルに依存している。
  • GeRMは、PBRとPRRの統合を目指す最初のマルチモーダルな生成レンダリングモデルであり、分布転送ベクトル場(DTV Field)として学習された「分布転送」を介してその移行を橋渡しすることで両者をつなぐ。
  • GeRMは、テキストプロンプトとともに物理的表現(G-buffers)を用い、段階的な漸進的インクリメンタル注入戦略によって、忠実度と知覚的リアリズムの連続体をうまく行き来しながら、制御可能なフォトリアル画像を生成する。
  • 本手法は、専門家による誘導を伴うペアデータセットを構築する。P2P-50Kは、マルチエージェントVLMフレームワークを用いて転送ペアを作成し、ベクトル場の学習を監督する。
  • DTV Fieldを学習し適用するために、マルチコンディションのControlNetが導入される。G-buffers、プロンプト、領域に焦点を当てた手がかりに導かれながら、PBR画像をPRR出力へと段階的に変換する。