FastDiSS: シーケンス・ツー・シーケンス生成におけるFew-step Match Many-step Diffusion Language Model—フルバージョン

arXiv cs.CL / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、連続拡散言語モデルにおける自己条件付けが、few-stepサンプリングでは破綻することを主張している。すなわち、事前推定が不正確であると脱ノイズ(denoising)ステップを通じて誤差が増幅し、その結果出力品質が大きく低下する。
  • 推論時に観測されるノイズ特性により適合するように、自己条件付け信号に摂動を加える学習フレームワークFastDiSSを提案し、近似ギャップを低減する。
  • FastDiSSはさらに、学習の飽和を避け最適化の安定性を高めるためのトークン単位のノイズ認識メカニズムも追加している。
  • 条件付き生成ベンチマークでの実験により、FastDiSSは標準的な連続拡散モデルより改善し、1-step拡散アプローチと競合的な性能を維持しつつ、最大400倍の高速な推論が可能であることが示されている。

Abstract

自己条件付けは、連続拡散言語モデルの成功の中心にあります。これは、モデルが過去の誤りを修正できるようになるためです。しかし、その能力は、実際の展開で最も拡散が魅力的となる領域、すなわち高速推論のための少数ステップのサンプリングにおいて、正確に劣化します。本研究では、モデルが数段階の除ノイズ(denoising)ステップしか持たない場合、不正確な自己条件付けが大きな近似ギャップを引き起こすことを示します。この誤りは除ノイズステップを通じて増幅され、最終的にサンプル品質を支配するまでに至ります。これに対処するため、我々は新しい学習枠組みを提案します。この枠組みは、学習中に自己条件付け信号を推論時のノイズに一致するように摂動させることで、これらの誤りを学習過程で扱います。これにより、事前推定(prior estimation)の誤りに対する頑健性が向上します。さらに、学習が飽和することを防ぐトークンレベルのノイズ認識メカニズムを導入し、最適化を改善します。条件付き生成ベンチマークにまたがる大規模な実験により、本枠組みが標準的な連続拡散モデルを上回り、最大で400倍の高速な推論速度を提供すること、また他のワンステップ拡散枠組みに対しても競争力を維持することを示します。