複数の目的に対応するステップレベルのノイズ除去時間における拡散アライメント

arXiv cs.LG / 2026/4/17

📰 ニュースModels & Research

共有:

要点

この論文は、人間の嗜好が単一の報酬関数ではなく複数の目的を含む場合に、拡散モデルをどのようにアライメントできるかを扱っています。
著者らは既存の多目的手法が、計算コストの高いマルチオブジェクティブRL微調整に依存するか、報酬値（または勾配）へのアクセスを必要とするうえに、デノイジング時の目的統合で近似誤差が生じがちだと指摘しています。
KL正則化の下で最適方策を求めることの不可能性（intractability）を乗り越えるため、ステップレベルのRL定式化を導入しています。
さらに、MSDDA（Multi-objective Step-level Denoising-time Diffusion Alignment）として、学習し直し（再訓練）を不要にし、逆方向のデノイジング分布を閉形式で導出する枠組みを提案します。
そのデノイジング時間の目的関数がステップレベルRL微調整と厳密に同等であること（近似誤差なし）を証明し、数値実験でも既存手法より優れていることを示しています。