MDM-Prime-v2: バイナリエンコーディングとインデックスシャッフルが拡散型言語モデルの計算最適化スケーリングを実現する

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、バイナリエンコーディングとインデックスシャッフルを用いたマスク付き拡散型言語モデルMDM-Prime-v2を紹介し、計算資源の最適活用によるスケーリングを実現する。
BPEと組み合わせた場合のトークン粒度とサブトークナイザ形式に関連するMDM-Primeの制約を扱い、変分境界の厳密性を検討し、トークン化手法を改善している。
MDM-Prime-v2は自己回帰モデルより21.8倍計算効率が高く、OpenWebTextでパープレキシティ7.77を達成し、ARM、MDM、MDM-Primeを計算最適比較で上回る。
1.1Bパラメータ構成では、常識推論タスクにおいて卓越したゼロショット精度を示している。

要約: マスクされた拡散モデル（MDM）は、部分マスキング方式（Prime）を用いて学習すると、優れた一般化を示します。このアプローチはトークンをサブトークンに変換し、サブトークンレベルで拡散過程をモデル化します。MDM-Primeフレームワークには2つの制約があることが分かりました。まず、サブトークン化器のトークン粒度のハイパーパラメータ選択を導くツールが不足しています。次に、サブトークン化器の関数形が、一般的に使用されるByte-Pair-Encoding（BPE）トークナイザと組み合わせた場合、尤度推定を著しく低下させることが分かります。これらの制約に対処するため、MDM-Primeにおける変分界の緊密性を研究し、バイナリエンコーディングとインデックスシャッフリングを組み込んだMDM-Prime-v2というマスク付き拡散言語モデルを開発しました。スケーリング分析は、MDM-Prime-v2が自己回帰モデル（ARM）より計算効率が21.8倍高いことを示しています。計算最適な比較において、MDM-Prime-v2はOpenWebTextで7.77のパープレキシティを達成し、ARM（12.99）、MDM（18.94）、MDM-Prime（13.41）を上回ります。モデルサイズを1.1Bパラメータに拡張すると、当モデルはさまざまな常識推論タスクにおいてゼロショット精度でさらに優れた性能を示します。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

MDM-Prime-v2: バイナリエンコーディングとインデックスシャッフルが拡散型言語モデルの計算最適化スケーリングを実現する

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？