| 要約(TL;DR):DMaxは、復号(デコード)を段階的な自己修正プロセスとして作り直すことで、エラーの蓄積を巧みに抑えます。生成中に、モデル自身が誤った予測を修正できるようになります。 概要(Abstract):
素人向けの説明(Layman's Explanation):本質的な考え方は、拡散言語モデルは通常のLLMよりも高速に文章を生成できるはずだ、ということです。拡散モデルは複数のトークンを同時に埋められるからです。ですが実際には、そのスピード上の利点は次第に頭打ちになります。というのも、最初の誤った推測が「雪だるま式に」増幅されやすいからです。モデルが悪いトークンに確定してしまうと、その悪いトークンが次のステップの文脈の一部になります。したがって復号をあまりに強気(積極的)にすると、品質が急速に崩れます。DMaxがやっているのは、モデル自身のミスからうまく立ち直れる方法を、より良く与えることです。マスクされたスロットから最終トークンへ、頑丈で一方向な道を一直線に進むのではなく、確定させる前に中間の推測を繰り返し磨かせます。 論文の2つの主要アイデアはいずれも直感的です。1つ目に、モデルは自分自身の不完全な予測を使って学習されるため、推論時に実際に起こすであろう種類の誤りをどう直すかを学習します。2つ目に、復号中は、どの推測も最初から完全に確定したものとして扱うのではなく、より「柔らかい」中間表現を使います。これにより不確実性が保たれ、修正がしやすくなります。その結果、DMaxは通常見られる品質の崩壊なしに、より大きく復号の並列化を押し進めます。論文の数学・コーディング系ベンチマークでは、精度を元のモデルに近いまま維持しつつ大幅な速度向上が得られています。さらに、並列度が低めの設定では、精度がほんの少し上がることもあります。つまり重要なポイントは、「より速い拡散LLM」だけではありません。積極的な並列復号を本当に実用的にするほど、拡散LLMがうまく自己修正できるようになった、という点です。 論文へのリンク: https://arxiv.org/pdf/2604.08302GitHubへのリンク: https://github.com/czg1225/DMaxモデルへのリンク: https://huggingface.co/collections/Zigeng/dmax-models学習データセットへのリンク: https://huggingface.co/collections/Zigeng/dmax-training-data[link] [comments] |
シンガポール国立大学が「DMax」を発表:拡散言語モデル(dLLM)のための新しいパラダイム—積極的な並列復号を可能にする
Reddit r/LocalLLaMA / 2026/4/11
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- DMaxは、シンガポール国立大学(National University of Singapore)による新しい拡散言語モデル(dLLM)復号パラダイムであり、高度に並列な生成において誤りの蓄積を軽減するために、復号を漸進的な自己修正として捉え直します。
- 従来のマスク付きトークン復号の代わりに、DMaxはプロセスを「マスク埋め込みからトークン埋め込みへ向けた洗練(refinement)」として再定式化し、生成の途中で誤った予測をモデルが修正できるようにします。
- さらに、このアプローチでは「オンポリシー一様学習(On-Policy Uniform Training)」を導入し、マスク付きと一様(uniform)のdLLM挙動を統一することで、モデルがマスク入力からだけでなく自分の過ちからもクリーンなトークンへ回復することを学習できるようにします。
- また、「ソフト並列復号(Soft Parallel Decoding)」を提案しており、中間状態を埋め込み空間での補間として表現することで、並列性を維持しつつ反復的な自己修正を支えます。
- 実験結果によれば、品質を同程度に保ちながら、ベンチマークで大きな改善が得られているとされます(例:GSM8KやMBPPでのTPFが向上)。さらに、バッチサイズ1で2台のH200 GPUを用いた場合のスループットは約1,338 TPSと測定されています。



