並列テキスト生成のためのガンベル蒸留(Gumbel Distillation)
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「Gumbel Distillation(ガンベル蒸留)」というモデル非依存の蒸留手法を提案し、並列(非自己回帰)言語モデルの生成品質を向上させることを目的とする。
- ガンベル・マックストリック(Gumbel-Max trick)を用いて、潜在するガンベル雑音から、高性能な自己回帰(AR)教師モデルが生成した出力トークンへと至る決定論的な写像を作成する。
- 著者らは、LM1BおよびOpenWebTextでの実験において、MDLMベースラインに対し、MAUVEスコアが30.0%向上し、生成パープレキシティが10.5%改善するなど、大幅な品質向上を報告している。
- 本手法は複数の並列デコーディング・アーキテクチャと互換性があるとされており、具体的にはMDLMおよびBD3-LMを含む。また、コードは公開されている。



