広告

SlowFastサンプリングによる拡散型大規模言語モデルの加速:3つの黄金の原則

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散ベースのLLM向けの動的デコーディング戦略であるSlowFast Samplingを提案する。これは、従来のサンプリング手法で起こりがちな静的な挙動に対処するため、探索段階と加速段階を交互に切り替える。
  • さらに、トークンを確実かつ効率的にデコードできる「いつ」および「どこで」を判断するための、3つの導きとなる「黄金の原則」(確信、収束、位置)を定義する。
  • 提案手法は、推論時の冗長な計算を削減するためにdLLM-Cacheと組み合わせて拡張される。
  • ベンチマークにおける実験では、精度の低下を最小限に抑えつつ、LLaDAで最大15.63×の速度向上が報告されており、キャッシュ統合を用いると最大34.22×の向上が示される。
  • 本手法は、LLaMA3 8Bのような強力な自己回帰ベースラインをスループットで上回ることが示されており、拡散LLMの効率を実現するための重要なレバーとしてサンプリング設計が浮き彫りになる。

概要: 拡散ベースの言語モデル(dLLM)は、並列トークン生成を可能にし、推論レイテンシを大幅に削減することで、従来の自己回帰型LLMの有望な代替として登場してきました。しかし、dLLM向けの既存のサンプリング戦略、例えば確信度に基づくものや半自己回帰デコーディングは、多くの場合静的な振る舞いに悩まされ、その結果として効率が最適でなくなり、柔軟性も限られます。本論文では、探索的デコーディング段階と加速デコーディング段階を動的に適応的に切り替える、新しい動的サンプリング戦略「SlowFast Sampling」を提案します。本手法は3つの「黄金原則」によって導かれます:確信(certainty)原則、収束(convergence)原則、位置(positional)原則であり、トークンを確信をもってかつ効率的にデコードできるタイミングと場所を規定します。さらに、本戦略をdLLM-Cacheと統合して、冗長な計算を削減します。ベンチマークとモデルにまたがる大規模な実験の結果、SlowFast Samplingは精度の低下を最小限に抑えつつ、LLaDAにおいて最大15.63\timesの高速化を達成し、キャッシュと組み合わせると最大34.22\timesまで向上します。特に本手法は、LLaMA3 8Bのような強力な自己回帰ベースラインをスループットで上回り、適切に設計されたサンプリングが、速くかつ高品質な生成のためにdLLMの持つ可能性を最大限に引き出せることを示しています。

広告