概要: トランスフォーマーに基づく拡散モデルは、高品質なサンプルを生成する点で目覚ましい性能を示しています。しかし、この成功の理由に関する理論的な理解は依然として限られています。たとえば、既存のモデルは通常、ノイズ除去目的を最小化することで学習されており、これはトレーニングデータのスコア関数に適合させることと同等です。しかし、トランスフォーマーに基づくモデルが、ノイズ除去のためのスコア関数にどのようにして一致できるのか、また非凸の損失ランドスケープにもかかわらず、勾配ベースの手法がなぜ最適なノイズ除去モデルへ収束するのかは、未解明です。筆者らの知る限り、本論文はトランスフォーマーに基づく拡散モデルの学習に関する最初の収束解析を提示します。より具体的には、複数トークンのガウス混合分布に従うノイズ除去データに対する、母集団ノイズ除去拡散確率モデル(DDPM)目的を考察します。これにより、ノイズ除去目的におけるベイズ最適リスクへの大域的収束に必要な、1データ点あたりのトークン数および学習反復回数を理論的に定量化し、望ましいスコア一致誤差を達成します。さらに深い調査により、学習済みトランスフォーマーの自己注意モジュールが平均ノイズ除去の仕組みを実装しており、拡散ステップで注入されたノイズに対するオラクルの平均二乗誤差(MMSE)推定器を、学習済みモデルが近似できることが分かります。数値実験により、これらの知見が検証されます。
Transformers はマルチトークン GMM に対する最適 DDPM デノイザを学習する
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トランスフォーマー型の拡散(DDPM)モデルの学習に関する最初の収束解析を提示し、非凸な学習ダイナミクスにもかかわらずなぜ有効なスコアマッチングが達成できるのかを扱う。
- 複数トークンのガウス混合分布からデータを生成する状況における集団DDPM目的関数を調べ、そのために必要な理論的条件(データ点あたりのトークン数や、グローバル収束に到達するまでの学習反復回数)を導出する。
- 解析は、デノイジング目的に対するベイズ最適リスクへの収束を定量化し、学習の進捗と目標とするスコアマッチング誤差との関係を明らかにする。
- 著者らは、トランスフォーマーの自己注意の重要な役割が、拡散ステップのノイズに対するオラクル MMSE 推定器を近似する平均デノイジング機構を実現することにあると見出す。
- 理論的な収束主張および、自己注意がデノイジングで何をしているのかについての提案解釈を検証する数値実験結果が報告される。




