STDec:dLLMs向けの時空間安定性誘導デコーディング

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散LLM(dLLM)に対して、単一のグローバルな信頼度しきい値を超えてデコーディング効率を改善するための、時空間安定性誘導デコーディング手法であるSTDecを提案する。
  • STDecは、dLLMデコーディングで観測される安定性の性質を活用し、近傍でデコードされた状態に基づく空間認識型のトークン適応しきい値と、トークンIDが後処理(denoising)ステップ間で一貫している場合の時間認識型のしきい値緩和を用いる。
  • このアプローチは学習不要(training-free)であり、キャッシュベースの加速技術と互換性があるよう設計されており、再学習なしでスループットの向上を狙う。
  • テキスト推論およびマルチモーダル理解のベンチマークでの実験により、タスク性能を同等に保ちながら大幅なスループット向上が示され、LLaDAを用いたMBPPで最大14.17倍の高速化が達成されている。
  • 本手法の主な貢献は、dLLMのデコーディング中における局所的(空間的)文脈と時間的一貫性を明示的にモデル化する点にある。

概要: 拡散型大規模言語モデル(dLLM)は、自己回帰パラダイムの有望な代替として見なされ、急速な進歩を遂げてきました。 しかしながら、ほとんどのdLLMデコーダは依然としてグローバルな信頼度閾値を採用しており、近傍の復号済み状態からの局所的文脈や、ステップ間における予測トークンIDの時間的な一貫性を明示的にモデル化していません。 この問題に対処するため、STDec(STability guided decoding)と名付けた、単純な時空間安定性に導かれるデコーディング手法を提案します。 dLLMのデコーディングにおいて、強い時空間安定性が観察されます。すなわち、新たに復号されたトークンは復号済みの近傍に位置する傾向があり、さらにそれらの予測IDは複数のデノイズステップにわたってしばしば一貫したままです。 この安定性に着想を得て、当社のSTDecは空間対応のデコーディングと時間対応のデコーディングを含みます。 空間対応のデコーディングでは、近傍トークンの復号済み状態を集約することで、トークン適応型の閾値を動的に生成します。 時間対応のデコーディングでは、デノイズステップを通じて予測トークンIDが一貫しているトークンに対して、デコーディング閾値を緩和します。 STDecは学習不要であり、キャッシュに基づく加速手法とも互換性があります。 テキスト推論およびマルチモーダル理解のベンチマークにおいて、STDecはタスクの性能スコアを同等に維持しつつ、スループットを大幅に改善します。 特に、LLaDAを用いたMBPPでは、STDecは同等のスコアで最大14.17倍の速度向上を達成します。 ホームページ: https://yzchen02.github.io/STDec.