LGTM:初期ノイズ操作によるトレーニング不要の光ガイド付きテキストから画像への拡散モデル

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、別段階で再照明(relighting)を行うのではなく、初期潜在ノイズを操作することで光方向の制御を実現する、トレーニング不要のテキストから画像への拡散手法LGTMを提案する。

要旨: 拡散モデルは、エッジ、レイアウト、奥行きといった構造的手がかりによる条件付きテキストから画像への生成において、高品質な性能を示しています。しかし、照明条件はこれまであまり注目されておらず、生成プロセスの中で制御することが依然として困難です。既存手法は、生成後に画像を再照明するという2段階パイプラインで照明を扱っており非効率です。さらに、それらは大規模データセットによる微調整と重い計算に依存しているため、新しいモデルやタスクへの適応性が制限されます。これに対処するために、本研究では、拡散プロセスの初期潜在ノイズを操作して、テキストプロンプトおよびユーザーが指定する照明方向に基づいて画像生成を導く、新しい「Initial Noise Manipulation(LGTM)を介した、学習不要の Light-Guided テキストから画像への拡散モデル」を提案します。潜在空間に対するチャネルごとの分析により、潜在チャネルを選択的に操作することで、微調整や事前学習済みモデルの変更なしに、きめ細かな照明制御が可能になることを見出します。大規模な実験の結果、本手法は、画像品質およびテキストとの整合性を維持しつつ、照明の一貫性においてプロンプトベースのベースラインを上回ることが示されました。本アプローチは、ダイナミックでユーザー主導の照明制御という新たな可能性を切り拓きます。さらに、ControlNet のようなモデルともシームレスに統合でき、多様な状況にわたって適応できることを示します。