マスクの先へ:削除・挿入プロセスによる効率的で柔軟な拡散言語モデル

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トークンの削除と挿入を離散的な拡散プロセスとして再定式化し、マスク付き拡散言語モデル(MDLMs)のトークンマスキング/アンマスキングを置き換える「削除・挿入拡散言語モデル(DID)」を提案する。
  • DIDは、情報を持たない <MASK> トークン計算に伴うオーバーヘッドを除去し、可変長生成における <PAD> トークン処理も削減することで、計算効率の向上を目指す。
  • この手法は、固定長パディングに依存せず、可変長系列をネイティブに扱えるよう設計されており、挿入操作によってトークン位置を調整することで、生成中に内在的な自己修正能力を追加する。
  • 学習はスコアベースの手法で行い、トークン挿入操作に対するスコアを学習する。学習目的は、並列化された動的計画法アルゴリズムによって解かれる「部分系列の個数え上げ問題」にまで低減される。
  • 実験(固定長および可変長の両設定)では、MDLMベースラインおよび既存の挿入ベース言語モデルと比べて、モデリング性能、サンプリング品質が向上し、さらにハイパーパラメータ調整なしで学習/推論も高速であることが報告されている。

Abstract

トークンのマスキングとアンマスキングに依存するマスク付き拡散言語モデル(MDLMs)は言語モデリングにおいて有望な結果を示しているものの、計算効率と生成の柔軟性は、マスキングのパラダイムによって制約されています。本論文では、現在のMDLMsにおけるマスキングおよびアンマスキングのプロセスを置き換える形で、トークンの削除と挿入を離散的な拡散過程として厳密に定式化したDeletion-Insertion Diffusion言語モデル(DID)を提案します。DIDは、MDLMsにおける計算オーバーヘッドの主要な2つの原因を取り除くことで、学習および推論の効率を改善します: 1) パラダイムに内在する情報を持たない トークンに関する計算、および 2) 可変長設定で導入される トークンに関する計算です。さらにDIDは、次の点でより大きな柔軟性を提供します: 1) 固定長のパディングを必要とせずに、可変長系列をネイティブにサポートすること、ならびに 2) 挿入による本質的な自己修正メカニズムにより、生成中にトークン位置を動的に調整できることです。DIDを学習するために、トークンの挿入操作にスコアを割り当てるスコアベースのアプローチを設計し、適切な学習目的を導出します。これらの目的は部分列のカウント問題を含み、これを並列化した動的計画法アルゴリズムによって効率的に解きます。固定長および可変長の両設定にわたる実験により、DIDがMDLMsおよび既存の挿入ベースのLMのベースラインに対して、モデリング性能、サンプリング品質、学習/推論速度の観点で優れていることを示します。さらに、ハイパーパラメータのチューニングは一切行っていません。