LightMover: Generative Light Movement with Color and Intensity Controls

arXiv cs.CL / 3/31/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • LightMoverは、単一画像から“光の位置・色・強度”を制御しつつ、反射・影・減衰まで含めて物理的に妥当な照明変化を生成するフレームワークを提案している。
  • 光編集を視覚トークン空間でのsequence-to-sequence予測として定式化し、空間制御(移動)と外観制御(色・強度)を同時に扱うことで操作性と照明理解の両方を高めている。
  • 適応的なトークンプルーニングにより、空間に有益なトークンを保持し非空間属性をコンパクトに符号化することで、制御シーケンス長を41%削減しつつ編集品質を維持している。
  • 学習には、シーン内容を一定に保ちながら光条件(位置・色・強度)を多様に変えた大量のレンダリングペアを生成するスケーラブルなパイプラインを構築し、高いPSNRとDINO/CLIP等でのセマンティック一貫性を示している。

Abstract

We present LightMover, a framework for controllable light manipulation in single images that leverages video diffusion priors to produce physically plausible illumination changes without re-rendering the scene. We formulate light editing as a sequence-to-sequence prediction problem in visual token space: given an image and light-control tokens, the model adjusts light position, color, and intensity together with resulting reflections, shadows, and falloff from a single view. This unified treatment of spatial (movement) and appearance (color, intensity) controls improves both manipulation and illumination understanding. We further introduce an adaptive token-pruning mechanism that preserves spatially informative tokens while compactly encoding non-spatial attributes, reducing control sequence length by 41% while maintaining editing fidelity. To train our framework, we construct a scalable rendering pipeline that generates large numbers of image pairs across varied light positions, colors, and intensities while keeping the scene content consistent with the original image. LightMover enables precise, independent control over light position, color, and intensity, and achieves high PSNR and strong semantic consistency (DINO, CLIP) across different tasks.