離散拡散言語モデルにおける依存性ガイド付き並列復号

arXiv cs.CL / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、離散拡散言語モデル（dLLM）の重要な制約に対処する：並列なアンマスキングは、真の同時条件付き分布ではなく、トークンごとの周辺事後分布の独立な積を用いるため、分布の不一致を引き起こしうる。
DEMASK（DEpendency-guided unMASKing）は、dLLMの上に軽量な依存性予測器を追加し、単一のフォワードパスでマスク位置間のペアごとの条件的な影響を推定することによりこの問題を扱う。
DEMASKは、これらの依存性推定値を用いて、貪欲かつ依存関係の上界付き選択戦略により、同時にアンマスクするトークンを決定し、モデルの真の同時分布とのギャップを縮小することを目指す。
著者らは（サブ加法性の仮定の下で）提案された選択が、並列サンプリング分布とモデルの同時分布の全変動距離を抑えるという理論的保証を提示する。
Dream-7Bでの実験では、信頼度ベースおよびKLベースの並列復号ベースラインと比較して精度を同等または向上させつつ、1.7〜2.2×の速度向上を示す。

要旨: 離散拡散言語モデル（dLLM）は、複数トークンを並列にアンマスクすることでテキスト生成を加速します。しかし、並列デコーディングは分布の不一致を生みます。すなわち、それは、完全に因子分解されたトークンごとの周辺分布の積を用いて、共同の条件付き分布を近似するためです。この近似は、選択されたトークン同士が強く依存している場合に出力品質を劣化させます。
本研究では、dLLMの最終隠れ状態に取り付ける軽量な依存関係予測器であるDEMASK（DEpendency-guided unMASKing）を提案します。 1回の順伝播において、マスクされた位置間のペアワイズな条件付き影響を推定します。これらの予測を用いて、貪欲な選択アルゴリズムは、同時のアンマスクにより累積依存が有界となる位置を特定します。さらに、従属関係に対する劣加法性（sub-additivity）の仮定のもとで、並列サンプリングとモデルの共同分布との間の全変動距離がこの手法によって抑えられることを証明します。実験的に、DEMASKはDream-7Bにおいて1.7-2.2 $\times$ の速度向上を達成し、確信ベースおよびKLベースのベースラインと比較して、精度を同等以上に保ちつつ改善します。