要約: マスクされた拡散モデル(MDM)は、部分マスキング方式(Prime)を用いて学習すると、優れた一般化を示します。このアプローチはトークンをサブトークンに変換し、サブトークンレベルで拡散過程をモデル化します。MDM-Primeフレームワークには2つの制約があることが分かりました。まず、サブトークン化器のトークン粒度のハイパーパラメータ選択を導くツールが不足しています。次に、サブトークン化器の関数形が、一般的に使用されるByte-Pair-Encoding(BPE)トークナイザと組み合わせた場合、尤度推定を著しく低下させることが分かります。これらの制約に対処するため、MDM-Primeにおける変分界の緊密性を研究し、バイナリエンコーディングとインデックスシャッフリングを組み込んだMDM-Prime-v2というマスク付き拡散言語モデルを開発しました。スケーリング分析は、MDM-Prime-v2が自己回帰モデル(ARM)より計算効率が21.8倍高いことを示しています。計算最適な比較において、MDM-Prime-v2はOpenWebTextで7.77のパープレキシティを達成し、ARM(12.99)、MDM(18.94)、MDM-Prime(13.41)を上回ります。モデルサイズを1.1Bパラメータに拡張すると、当モデルはさまざまな常識推論タスクにおいてゼロショット精度でさらに優れた性能を示します。
MDM-Prime-v2: バイナリエンコーディングとインデックスシャッフルが拡散型言語モデルの計算最適化スケーリングを実現する
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、バイナリエンコーディングとインデックスシャッフルを用いたマスク付き拡散型言語モデルMDM-Prime-v2を紹介し、計算資源の最適活用によるスケーリングを実現する。
- BPEと組み合わせた場合のトークン粒度とサブトークナイザ形式に関連するMDM-Primeの制約を扱い、変分境界の厳密性を検討し、トークン化手法を改善している。
- MDM-Prime-v2は自己回帰モデルより21.8倍計算効率が高く、OpenWebTextでパープレキシティ7.77を達成し、ARM、MDM、MDM-Primeを計算最適比較で上回る。
- 1.1Bパラメータ構成では、常識推論タスクにおいて卓越したゼロショット精度を示している。


