広告

LightMover:色と強度の制御による生成的な光の移動

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LightMoverは、単一画像から「光の位置・色・強度」を制御しつつ、反射・影・減衰まで含めて物理的に妥当な照明変化を生成するフレームワークを提案している。
  • 光編集を視覚トークン空間におけるsequence-to-sequence予測として定式化し、空間制御(移動)と外観制御(色・強度)を同時に扱うことで、操作性と照明理解の両方を高めている。
  • 適応的なトークンプルーニングにより、空間に有益なトークンを保持し、非空間属性をコンパクトに符号化することで、制御シーケンス長を41%削減しつつ編集品質を維持している。
  • 学習では、シーン内容を一定に保ちながら光条件(位置・色・強度)を多様に変えた大量のレンダリングペアを生成するスケーラブルなパイプラインを構築し、高いPSNRとDINO/CLIPなどによるセマンティック一貫性を示している。

Abstract

本論文では、単一画像における制御可能な光の操作のためのフレームワークLightMoverを提案する。LightMoverは、ビデオ拡散の事前知識を活用して、シーンを再レンダリングすることなく、物理的にもっともらしい照明変化を生成する。光の編集を、視覚トークン空間におけるシーケンス・ツー・シーケンス予測問題として定式化する。すなわち、画像と光制御トークンが与えられたとき、モデルは光の位置・色・強度を、単一視点から得られる反射・影・減衰(フォールオフ)とともに調整する。空間的制御(移動)と見え(色・強度)を統一的に扱うことで、操作性と照明理解の双方が向上する。さらに、空間情報を保持する適応的なトークン間引き機構を導入し、非空間属性をコンパクトに符号化することで、編集の忠実性を維持しつつ制御シーケンス長を41%削減する。我々のフレームワークを訓練するために、スケーラブルなレンダリング・パイプラインを構築する。このパイプラインでは、元の画像のシーン内容を一貫したまま保ちつつ、多様な光の位置・色・強度に対して大量の画像ペアを生成する。LightMoverは、光の位置・色・強度を精密かつ独立に制御でき、異なるタスクにわたって高いPSNRと強い意味的一貫性(DINO、CLIP)を達成する。

広告