要旨: 本論文では、基準密度に対する指数傾斜(exponential tilting)によって定義された目標分布からサンプルを生成するために、拡散モデルおよびフロー生成モデルを訓練する問題を研究する。これは、正規化されていない密度からのサンプリングと、事前学習済みモデルの報酬による微調整(reward fine-tuning)の両方を包含する定式化である。この問題は、随伴(アジョイント)に基づく手法やスコアマッチング法を用いた確率的最適制御(SOC)の観点、あるいは非平衡熱力学の観点から取り組むことができる。これらのアプローチを包含する統一的枠組みを提示し、主に三つの貢献を行う: (i) バイアス—分散分解により、Adjoin Matching/Sampling と Novel Score Matching では勾配分散が有限である一方、Target および Conditional Score Matching では有限ではないことを明らかにする; (ii) 随伴ベース手法の有効性を理論的に裏付ける、軽量随伴(lean adjoint)ODEに対するノルム上界を与える; そして (iii) 指数傾斜の設定に対する、CMCDおよびNETS損失関数の適応と、新しい Crooks および Jarzynski の恒等式を導入する。安定拡散(Stable Diffusion)1.5 および 3 に対する報酬微調整の実験により、我々の解析を検証する。
拡散モデルとフローモデルにおけるファインチューニングとサンプリングの統一的な視点
arXiv stat.ML / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ベース分布に対する指数チルトにより定義される目標分布からサンプルを行うために、拡散モデルとフローモデルを訓練する問題を扱い、非正規化分布からのサンプリングや、事前学習済みモデルのリワード・ファインチューニングを包含する形で整理しています。
- 目的関数へのアプローチとして、接続された統一的枠組みを提示し、随伴(adjoint)ベース/スコアマッチングによる確率的最適制御(SOC)の観点と、非平衡熱力学の観点を統合しています。
- バイアス–バリアンス分解により、Adjoint Matching/Sampling と Novel Score Matching は勾配分散が有限である一方、Target および Conditional Score Matching は有限にならない可能性があることを示します。
- さらに、lean adjoint ODE に対するノルム境界を導出して随伴ベース手法の有効性を理論的に支え、CMCD/NETS の損失関数の拡張に加えて、指数チルト設定での Crooks と Jarzynski の恒等式を提案しています。
- 理論の妥当性は、Stable Diffusion 1.5 と Stable Diffusion 3 に対するリワード・ファインチューニング実験により検証されています。




