次元間の相関モデリングを強化した変分オートエンコーディング離散拡散

arXiv stat.ML / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、離散拡散(マスク付き拡散モデルの流儀)と潜在変数モデリングを組み合わせ、複数の次元にまたがる依存関係をより適切に表現する枠組みである変分オートエンコーディング離散拡散(VADD)を提案する。
  • マスク付き拡散モデルの重要な限界として、少数のノイズ除去ステップだけを用いると性能が低下する点を扱う。これは次元間の相関が十分にモデル化されないことに起因する。
  • VADDは補助的な認識モデルを追加し、変分下限を最大化することで学習する。これにより、より安定した学習と償却推論(amortized inference)が可能になる。
  • 2Dのトイデータ、ピクセルレベルの画像生成、テキスト生成にわたる実験により、VADDはMDM(マスク付き拡散モデル)のベースラインと比較してサンプル品質を改善することが示され、特にノイズ除去ステップの予算が小さい場合に顕著である。
  • 著者らは、VADDが従来のMDMの生成効率の利点を維持しつつ、ノイズ除去ステップが限られているときに出力品質を大幅に高めると主張している。

要旨: 離散拡散モデルは、複雑な離散データをモデリングするうえで大きな可能性を最近示しており、マスク付き拡散モデル(MDM)は、品質と生成速度の間の説得力のあるトレードオフを提供するものとして注目されています。MDMは、全てをマスクした入力から複数の次元を段階的にアンマスクしていくことでノイズ除去を行いますが、少数のノイズ除去ステップを用いる場合、次元間の依存関係のモデリングが限られているため性能が低下し得ます。本論文では、離散拡散を潜在変数モデリングで強化し、次元間の相関を暗黙的に捉える、新しい枠組みである変分オートエンコーダ型離散拡散(VADD: Variational Autoencoding Discrete Diffusion)を提案します。補助的な認識モデルを導入することで、VADDは変分下限の最大化と学習集合に対する償却推論により、安定した学習を可能にします。提案手法は、従来のMDMの効率を維持しつつ、特にノイズ除去ステップ数が少ない場合に、サンプル品質を大幅に向上させます。2Dの玩具データ、ピクセルレベルの画像生成、そしてテキスト生成に関する実験結果は、VADDが少数のノイズ除去ステップにおいて、サンプル品質の面でMDMのベースラインを一貫して上回ることを示しています。