シンガポール国立大学が「DMax」を発表：拡散言語モデル（dLLM）のための新しいパラダイム—積極的な並列復号を可能にする

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

DMaxは、シンガポール国立大学（National University of Singapore）による新しい拡散言語モデル（dLLM）復号パラダイムであり、高度に並列な生成において誤りの蓄積を軽減するために、復号を漸進的な自己修正として捉え直します。
従来のマスク付きトークン復号の代わりに、DMaxはプロセスを「マスク埋め込みからトークン埋め込みへ向けた洗練（refinement）」として再定式化し、生成の途中で誤った予測をモデルが修正できるようにします。
さらに、このアプローチでは「オンポリシー一様学習（On-Policy Uniform Training）」を導入し、マスク付きと一様（uniform）のdLLM挙動を統一することで、モデルがマスク入力からだけでなく自分の過ちからもクリーンなトークンへ回復することを学習できるようにします。
また、「ソフト並列復号（Soft Parallel Decoding）」を提案しており、中間状態を埋め込み空間での補間として表現することで、並列性を維持しつつ反復的な自己修正を支えます。
実験結果によれば、品質を同程度に保ちながら、ベンチマークで大きな改善が得られているとされます（例：GSM8KやMBPPでのTPFが向上）。さらに、バッチサイズ1で2台のH200 GPUを用いた場合のスループットは約1,338 TPSと測定されています。

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

要約（TL;DR）:

DMaxは、復号（デコード）を段階的な自己修正プロセスとして作り直すことで、エラーの蓄積を巧みに抑えます。生成中に、モデル自身が誤った予測を修正できるようになります。

概要（Abstract）:

私たちは、効率的な拡散言語モデル（dLLM）のための新しいパラダイムであるDMaxを提案します。並列復号におけるエラー蓄積を抑制し、生成品質を維持しながら積極的な復号の並列化を可能にします。二値マスクからトークンへの移行を経て復号する従来のマスク付きdLLMとは異なり、DMaxはマスク埋め込みからトークン埋め込みへの、段階的な自己修正として復号を再定式化します。

本手法の中核は、マスク付きdLLMと一様（uniform）dLLMを効率的に統一する新しい学習戦略であるオンポリシー一様トレーニング（On-Policy Uniform Training）です。これにより、モデルはマスク入力と、生成中に生じた自身の誤った予測の両方から、クリーンなトークンを復元できるようになります。この土台の上に、さらにソフト並列復号（Soft Parallel Decoding）も提案します。各中間復号状態を、予測されたトークン埋め込みとマスク埋め込みの補間として表現することで、埋め込み空間上での反復的な自己修正を可能にします。

多様なベンチマークにわたる大規模な実験により、DMaxの有効性が示されています。元のLLaDA-2.0-miniと比べて、精度を維持したままGSM8K上でTPFを2.04から5.47へ改善しています。MBPPでは、比較可能な性能を保ちつつTPFを2.71から5.86へ向上させています。さらに、2台のH200 GPU上で、バッチサイズ1の場合に平均1,338 TPSを達成しています。

素人向けの説明（Layman's Explanation）:

本質的な考え方は、拡散言語モデルは通常のLLMよりも高速に文章を生成できるはずだ、ということです。拡散モデルは複数のトークンを同時に埋められるからです。ですが実際には、そのスピード上の利点は次第に頭打ちになります。というのも、最初の誤った推測が「雪だるま式に」増幅されやすいからです。モデルが悪いトークンに確定してしまうと、その悪いトークンが次のステップの文脈の一部になります。したがって復号をあまりに強気（積極的）にすると、品質が急速に崩れます。DMaxがやっているのは、モデル自身のミスからうまく立ち直れる方法を、より良く与えることです。マスクされたスロットから最終トークンへ、頑丈で一方向な道を一直線に進むのではなく、確定させる前に中間の推測を繰り返し磨かせます。

論文の2つの主要アイデアはいずれも直感的です。1つ目に、モデルは自分自身の不完全な予測を使って学習されるため、推論時に実際に起こすであろう種類の誤りをどう直すかを学習します。2つ目に、復号中は、どの推測も最初から完全に確定したものとして扱うのではなく、より「柔らかい」中間表現を使います。これにより不確実性が保たれ、修正がしやすくなります。その結果、DMaxは通常見られる品質の崩壊なしに、より大きく復号の並列化を押し進めます。論文の数学・コーディング系ベンチマークでは、精度を元のモデルに近いまま維持しつつ大幅な速度向上が得られています。さらに、並列度が低めの設定では、精度がほんの少し上がることもあります。つまり重要なポイントは、「より速い拡散LLM」だけではありません。積極的な並列復号を本当に実用的にするほど、拡散LLMがうまく自己修正できるようになった、という点です。