ランダム特徴量スコアとマニフォールドデータを用いる拡散モデルの漸近的学習曲線

arXiv cs.LG / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、基となるデータが低次元マニフォールド上にある場合における拡散モデルのノイズ除去スコアマッチングを解析し、スコアをランダム特徴量ニューラルネットワークでモデル化する。
  • 学習挙動を実験ではなく理論によって特徴づけることを目的として、訓練誤差・テスト誤差・スコア誤差について、高次元における漸近的に正確な(asymptotically exact)数式を提示する。
  • 線形マニフォールドでは、スコアを学習するのに必要なサンプル計数(sample complexity)が、周囲(埋め込み)次元ではなく、固有(マニフォールド)次元に比例して増大することが示され、構造的な効率の向上が示唆される。
  • 非線形マニフォールドでは、低次元構造による優位性が弱まり、その利点がマニフォールドの幾何に強く依存することが示される。
  • 全体として、拡散モデルが構造化されたデータを活用できることを示すが、どのような構造か、そしてその非線形性の程度が、学習性能に決定的に影響することが示唆される。

Abstract

本研究では、拡散モデルに関連する学習課題である denoising score matching(ノイズ除去スコアマッチング)について、データ分布が低次元マニフォールド上で支持され、さらにスコアがランダム特徴ニューラルネットワークでパラメータ化される場合の理論的挙動を調べます。高次元極限において、テスト誤差、学習誤差、ならびにスコア誤差について漸近的に厳密な式を導出します。解析の結果、線形マニフォールドの場合には、スコア関数を学習するために必要なサンプル複雑度が、周囲(環境)次元ではなく、マニフォールドの固有次元に対して線形にスケールすることが明らかになりました。おそらく意外にも、非線形マニフォールドになると、低次元構造の恩恵は薄れ始めます。これらの結果は、拡散モデルが構造化データの恩恵を受けうることを示しています。ただし、特定の構造の種類への依存は、微妙で複雑です。