拡散モデルにおける照明制御の学習

arXiv cs.LG / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、拡散画像生成モデルにおける照明制御を学習するための、完全にオープンソースで再現可能なパイプラインを提案します。
「データエンジン」を構築し、十分に明るい画像から教師あり学習用トリプレット（暗い入力画像、自然言語の照明指示、明るい出力画像）を生成します。
提案データセットで拡散モデルを微調整し、SD 1.5、SDXL、FLUX.1-dev のベースラインと比べて顕著な改善を報告しています。
改善は、知覚的類似性、構造的類似性、そしてアイデンティティ保持の指標で評価されています。
コード、データ、モデル重みをすべて公開することで、他の研究者が再現し発展させられるようにしています。

要旨: 画像における照明の制御は、写真撮影やビジュアルコンテンツ制作において不可欠です。クローズドソースのモデルは印象的な照明制御を示してきましたが、オープンソースの代替手段では、深度マップのような重い制御入力を必要とするか、あるいはデータやコードを公開していないことが多いです。私たちは、拡散モデルにおける照明制御を学習するための、完全にオープンソースで再現可能なパイプラインを提案します。私たちのアプローチは、十分に照明された画像を、教師あり学習用のトレーニング・トリプレットへと変換するデータエンジンを構築します。これにより、照明が不十分な入力画像、自然言語による照明指示、そして十分に照明された出力画像から成る教師ありデータが得られます。このデータで拡散モデルを微調整し、知覚的類似性、構造的類似性、アイデンティティ保持の各指標において、ベースラインのSD 1.5、SDXL、およびFLUX.1-devモデルに対して大幅な改善を示します。私たちの研究は、オープンソースのツールと公開されているデータだけで構築された、再現可能な解決策を提供します。私たちは、コード、データ、モデル重みのすべてを公開します。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

AIエージェントのループ向けに作られたAPIテストツール

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

拡散モデルにおける照明制御の学習

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ