要旨: マスク付き拡散言語モデル(dLMs)は双方向のノイズ除去によってテキストを生成しますが、この能力はいまだ補完(infilling)プロンプトでは利用できません。この制限は、応答のみをマスクするという現在の教師ありファインチューニング(SFT)という慣習の副産物です。そこで、この能力を解放するために、SFT中にフルシーケンス・マスキングを拡張します。ここでは、プロンプトと応答の両方を共同でマスクします。一度解放されると、このモデルは少数ショット例に条件付けられたプロンプト・テンプレートのマスクされた部分を補完します。こうしたモデルで補完されたプロンプトは、人手で設計したテンプレートに対して同等、あるいはそれを上回ること、さらにモデル間で効果的に転移できること、そして既存のプロンプト最適化手法とも相補的であることを示します。これらの結果は、マスク付き拡散言語モデルが効果的なプロンプトを補完できない主なボトルネックが、アーキテクチャ上の制約ではなく、訓練の実践にあることを示唆しています
拡散言語モデルにおけるプロンプト・インフィリング能力の解放
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 論文は、masked diffusion language models(dLMs)が通常のSFTで「response-only masking」により、プロンプトのマスク部分を埋めるinfilling能力が学習で封じられている点を指摘しています。
- 対策として、SFT時にpromptとresponseの両方を含めたfull-sequence maskingで学習する手法を提案し、infillingを可能にします。
- 様式化されたプロンプトテンプレートのマスク箇所を、few-shot例に条件付けして埋めることで、手設計テンプレートと同等以上の性能を示したと報告しています。
- infilledプロンプトはモデル間での転移性があり、既存のprompt optimization手法とも相補的であるとされています。
- 結論として、アーキテクチャの限界ではなく「学習/訓練手順」がmasked diffusion言語モデルのプロンプトinfillingを阻む主要ボトルネックだと主張しています。


