拡散モデルにおける照明制御の学習

arXiv cs.LG / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、拡散画像生成モデルにおける照明制御を学習するための、完全にオープンソースで再現可能なパイプラインを提案します。
  • 「データエンジン」を構築し、十分に明るい画像から教師あり学習用トリプレット(暗い入力画像、自然言語の照明指示、明るい出力画像)を生成します。
  • 提案データセットで拡散モデルを微調整し、SD 1.5、SDXL、FLUX.1-dev のベースラインと比べて顕著な改善を報告しています。
  • 改善は、知覚的類似性、構造的類似性、そしてアイデンティティ保持の指標で評価されています。
  • コード、データ、モデル重みをすべて公開することで、他の研究者が再現し発展させられるようにしています。

要旨: 画像における照明の制御は、写真撮影やビジュアルコンテンツ制作において不可欠です。クローズドソースのモデルは印象的な照明制御を示してきましたが、オープンソースの代替手段では、深度マップのような重い制御入力を必要とするか、あるいはデータやコードを公開していないことが多いです。私たちは、拡散モデルにおける照明制御を学習するための、完全にオープンソースで再現可能なパイプラインを提案します。私たちのアプローチは、十分に照明された画像を、教師あり学習用のトレーニング・トリプレットへと変換するデータエンジンを構築します。これにより、照明が不十分な入力画像、自然言語による照明指示、そして十分に照明された出力画像から成る教師ありデータが得られます。このデータで拡散モデルを微調整し、知覚的類似性、構造的類似性、アイデンティティ保持の各指標において、ベースラインのSD 1.5、SDXL、およびFLUX.1-devモデルに対して大幅な改善を示します。私たちの研究は、オープンソースのツールと公開されているデータだけで構築された、再現可能な解決策を提供します。私たちは、コード、データ、モデル重みのすべてを公開します。

拡散モデルにおける照明制御の学習 | AI Navigate