最適損失値の推定による拡散モデルの診断と改善

arXiv stat.ML / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散モデルの損失は絶対的なデータ適合度の指標としては不十分であり得ると主張します。なぜなら、損失の最適値は通常ゼロではなく、かつ未知であるためです。
  • 研究では、統一的な拡散モデルの定式化のもとで最適損失を閉形式で導出し、大規模データセットにも適用できる確率的バリアントを含む実用的な推定器(分散とバイアスを制御)を提案します。
  • 推定した最適損失を用いて、主要な拡散モデルのバリアントに対する学習品質の診断における内在的な指標として活用できることを示します。
  • また、最適損失に基づく考え方でトレーニングスケジュールをより性能良く設計できることを提案し、120M〜1.5Bパラメータのモデルでは「観測損失から最適損失を差し引くとべき乗則がより明確に現れる」ことを報告します。
  • 結果として、単なる損失値以上の観点から、拡散モデルの学習進捗をより原理的に評価・比較する枠組みを提供します。

Abstract

拡散モデルは生成モデリングにおいて目覚ましい成功を収めてきました。より安定した学習が得られるにもかかわらず、拡散モデルの損失はデータへの厳密な適合の品質を絶対的に示すものではありません。というのも、その最適値は通常ゼロではなく、かつ未知であるため、大きな最適損失とモデルの能力不足との混同が生じてしまうからです。本研究では、拡散モデルを診断し改善するために、最適損失値を推定する必要性を提唱します。まず、拡散モデルの統一的な定式化に基づいて、最適損失を閉形式で導出し、そのための効果的な推定器を開発します。これには、分散とバイアスを適切に制御することで大規模データセットへスケール可能な、確率的バリアントも含まれます。この手法により、主流の拡散モデル各種の学習品質を診断するための本質的な指標を解き明かし、最適損失に基づくより性能の高い学習スケジュールを開発します。さらに、120M〜1.5Bパラメータのモデルを用いて、実際の学習損失から最適損失を差し引くとべき乗則がより良く表れることを見出し、拡散モデルに対するスケーリング則を調べるための、より原理的な設定を示唆します。