広告

LightCtrl:学習なしで制御可能な動画リライティング

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsModels & Research

要点

  • LightCtrl は、ユーザーが与える時系列の光(light trajectory)を用いて、学習なし(training-free)で明示的に照明を制御できるビデオリライティング手法を提案している。
  • 事前学習済みの拡散モデルをフレーム単位の画像リライティングに使い、その後にビデオ拡散の事前知識(prior)を組み合わせて時間的一貫性を高める構成になっている。
  • Light Map Injection は、入力された光軌道に応じたノイズをサンプリングして潜在表現に注入し、動画中の照明の整合性を強化する。
  • Geometry-Aware Relighting は、RGB と法線マップ(normal map)の潜在表現を周波数領域で動的に組み合わせ、元映像の照明の影響を抑えて指定した光軌道への追従性を向上させる。
  • 実験では、ベースラインよりも指定光軌道により密接に従う多様な照明変化を持つ高品質な動画が示され、実装コードも公開されている。

Abstract

近年の拡散モデルは、画像のリライティングにおいて目覚ましい成功を収めており、この成功はすぐに動画のリライティングにも拡張されました。しかし、既存の手法ではリライティング後の出力に対する照明の明示的な制御が限定的です。本稿では、学習不要の方式で、ユーザーが与えた光の軌道(light trajectory)を通じて動画の照明を明示的に制御できる、最初の制御可能な動画リライティング手法であるLightCtrlを提案します。私たちのアプローチは、事前学習済みの拡散モデルを組み合わせています。まず、画像リライティングモデルが各フレームを個別に処理し、その後に動画拡散の事前分布(prior)を用いて時間的な整合性を高めます。動的に変化する照明を明示的に制御するために、2つの重要な構成要素を導入します。第一に、Light Map Injectionモジュールは、光の軌道に固有のノイズをサンプリングし、それを入力動画の潜在表現(latent representation)に注入します。これにより、条件として与えられた光の軌道との照明のコヒーレンスが向上します。第二に、Geometry-Aware Relightingモジュールは、周波数領域においてRGBおよび法線マップ(normal map)の潜在表現を動的に組み合わせ、元の照明の影響を抑制し、入力した光の軌道への追従性をさらに高めます。実験の結果、LightCtrlは、指定された光の軌道に密接に従う、多様な照明変化を伴う高品質な動画を生成し、基線手法に比べて制御性が向上することを示します。コードは次の場所で利用可能です: https://github.com/GVCLab/LightCtrl.

広告