拡散モデルにおけるオフセットノイズの確率的定式化

arXiv stat.ML / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、極端な明るさの値を持つデータを生成する際に拡散モデルが抱える既知の弱点に取り組み、オフセットノイズが経験的には有効である一方で、その理論的基盤はいまだ限定的であることを指摘する。
  • 前向き拡散過程と後向き拡散過程の両方を修正することで、厳密な確率的枠組みにより追加のノイズを注入する、新しい拡散モデルの定式化を提案する。
  • この方法により、入力を任意の平均構造を持つガウス分布へと拡散することが可能となり、証拠下限(ELBO)を用いて学習目的関数を導出する。
  • 得られる損失は、時間に依存する係数を伴い、オフセットノイズの目的関数と構造的に類似していることを著者らが示し、理論を従来の経験的手法へと結び付ける。
  • 制御された合成データセットでの実験により、このアプローチが明るさに関連する失敗を軽減し、特に高次元の設定において従来手法より性能を向上させることが示される。

Abstract

拡散モデルは、機械学習におけるデータ分布をモデル化するための基本的なツールとなっています。成功を収めている一方で、実用的な大規模拡散モデルで観測されている制約からもわかるように、極端に明るい値を持つデータを生成する際には課題に直面します。オフセットノイズは、この問題に対する経験的な解決策として提案されてきましたが、その理論的基盤は十分に調査されていません。本論文では、厳密な確率論的枠組みに自然に追加ノイズを組み込む、新しい拡散モデルを提案します。提案手法では、順方向および逆方向の両方の拡散過程を修正することで、入力を任意の平均構造を持つガウス分布へと拡散できるようにします。エビデンス下限(ELBO)に基づく損失関数を導出し、その結果得られる目的関数が、時間に依存する係数を伴うオフセットノイズのそれと構造的に類似していることを示します。制御された合成データセットでの実験により、提案モデルが明るさに関連する制約を緩和し、従来手法よりも性能が向上すること、特に高次元の設定において改善が顕著であることが確認されます。