自己回帰(AR)対マスク付き拡散言語モデル:制御された比較
arXiv cs.CL / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、生成パラダイムのみを変え、データ、計算量、系列長、ハードウェアを一定に保ったうえで、自己回帰(AR)型とマスク付き拡散(MDLM)型の言語モデルを制御した形で経験的に比較する。
- その結果、学習スループットは両手法で同程度であり、MDLMは壁時計時間でわずか約4.7%増にとどまることが分かり、学習速度における大きな効率低下はないことを示している。
- 本研究では、収束と過学習の挙動が異なることも報告されている。ARはより速く収束するが、約14,000ステップあたりから過学習を開始する一方、MDLMは約20,000ステップまで改善を継続する。
- 生成サンプル1,000件に基づく多様性分析では、構造化されたトレードオフが観察される。ARの出力はより流暢だが多様性は低く、MDLMはより多様なナラティブを生成するものの、時折文法的不整合が見られる。
- 著者らは再現性とさらなる調査を支えるために、コード、学習済みチェックポイント、データパイプラインを公開している。
