マスクこそDLLMに必要なもの: 拡散型LLMのためのマスキングデータ訓練パラダイム

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実世界のシーケンスにおける情報密度の非均一性に対処するため、拡散言語モデル向けの情報密度駆動型スマートノイズスケジューラを提案する。
補完的優先度マスキングを導入し、1つの学習サンプルを相互に強化し合う推論サンプルと構文サンプルへ分離させ、モデルが論理的推論と基盤的なシーケンス構造の両方を習得できるようにする。
実験では、コードおよび数学推論の4つのベンチマークにおいて平均約4%の精度向上を示し、均一なベースラインを上回る。
機構的分析は、確率的優先度マスキングがブロック拡散訓練中の文脈崩壊を緩和することを明らかにし、処理済みデータセットは https://huggingface.co/datasets/malr07/opc-sft-stage2-dense-extracted で入手可能です。

概要: 離散拡散モデルはグローバルな文脈認識と柔軟な並列生成を提供します。
しかし、標準の DLLM の訓練における一様乱数ノイズスケジューラは、現実世界のシーケンスに内在する高度に非均一な情報密度を見落としています。
これは低密度の構造的結合要素に最適化リソースを浪費する一方で、高密度の論理的転換点を著しく最適化できていません。
この問題に対処するため、情報密度駆動型スマートノイズスケジューラを提案します。
情報密度の高いハブを抽出し、補完的優先マスキングを適用することにより、私たちの手法は1つの訓練事例を相互に強化し合う推論サンプルと構文サンプルに分離し、モデルに論理的推論と基盤となる系列構造の双方を習得させます。
実験は、私たちのアプローチが4つのコードおよび数学の推論ベンチマークで平均精度を約4％向上させ、均一なベースラインを大きく上回ることを示しています。
機序分析によれば、確率的優先マスキングはブロック拡散訓練中の文脈崩壊を効果的に緩和することがさらに明らかになっています。
全体として、この密度認識戦略は、最小の注釈コストで拡散言語モデルの推論ポテンシャルを効率的に解放し、拡散LLMsの新しい、注目すべきマスク済みデータ訓練パラダイムとして浮上しています。
処理済みデータセットは https://huggingface.co/datasets/malr07/opc-sft-stage2-dense-extracted にあります。