マスクの先へ:削除・挿入プロセスによる効率的で柔軟な拡散言語モデル
arXiv cs.LG / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トークンの削除と挿入を離散的な拡散プロセスとして再定式化し、マスク付き拡散言語モデル(MDLMs)のトークンマスキング/アンマスキングを置き換える「削除・挿入拡散言語モデル(DID)」を提案する。
- DIDは、情報を持たない <MASK> トークン計算に伴うオーバーヘッドを除去し、可変長生成における <PAD> トークン処理も削減することで、計算効率の向上を目指す。
- この手法は、固定長パディングに依存せず、可変長系列をネイティブに扱えるよう設計されており、挿入操作によってトークン位置を調整することで、生成中に内在的な自己修正能力を追加する。
- 学習はスコアベースの手法で行い、トークン挿入操作に対するスコアを学習する。学習目的は、並列化された動的計画法アルゴリズムによって解かれる「部分系列の個数え上げ問題」にまで低減される。
- 実験(固定長および可変長の両設定)では、MDLMベースラインおよび既存の挿入ベース言語モデルと比べて、モデリング性能、サンプリング品質が向上し、さらにハイパーパラメータ調整なしで学習/推論も高速であることが報告されている。