自己回帰（AR）対マスク付き拡散言語モデル：制御された比較

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成パラダイムのみを変え、データ、計算量、系列長、ハードウェアを一定に保ったうえで、自己回帰（AR）型とマスク付き拡散（MDLM）型の言語モデルを制御した形で経験的に比較する。
その結果、学習スループットは両手法で同程度であり、MDLMは壁時計時間でわずか約4.7%増にとどまることが分かり、学習速度における大きな効率低下はないことを示している。
本研究では、収束と過学習の挙動が異なることも報告されている。ARはより速く収束するが、約14,000ステップあたりから過学習を開始する一方、MDLMは約20,000ステップまで改善を継続する。
生成サンプル1,000件に基づく多様性分析では、構造化されたトレードオフが観察される。ARの出力はより流暢だが多様性は低く、MDLMはより多様なナラティブを生成するものの、時折文法的不整合が見られる。
著者らは再現性とさらなる調査を支えるために、コード、学習済みチェックポイント、データパイプラインを公開している。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to