Unlocking Prompt Infilling Capability for Diffusion Language Models

arXiv cs.CL / 4/7/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 論文は、masked diffusion language models(dLMs)が通常のSFTで「response-only masking」により、プロンプトのマスク部分を埋めるinfilling能力が学習で封じられている点を指摘しています。
  • 対策として、SFT時にpromptとresponseの両方を含めたfull-sequence maskingで学習する手法を提案し、infillingを可能にします。
  • 様式化されたプロンプトテンプレートのマスク箇所を、few-shot例に条件付けして埋めることで、手設計テンプレートと同等以上の性能を示したと報告しています。
  • infilledプロンプトはモデル間での転移性があり、既存のprompt optimization手法とも相補的であるとされています。
  • 結論として、アーキテクチャの限界ではなく「学習/訓練手順」がmasked diffusion言語モデルのプロンプトinfillingを阻む主要ボトルネックだと主張しています。

Abstract

Masked diffusion language models (dLMs) generate text through bidirectional denoising, yet this capability remains locked for infilling prompts. This limitation is an artifact of the current supervised finetuning (SFT) convention of applying response-only masking. To unlock this capability, we extend full-sequence masking during SFT, where both prompts and responses are masked jointly. Once unlocked, the model infills masked portions of a prompt template conditioned on few-shot examples. We show that such model-infilled prompts match or surpass manually designed templates, transfer effectively across models, and are complementary to existing prompt optimization methods. Our results suggest that training practices, not architectural limitations, are the primary bottleneck preventing masked diffusion language models from infilling effective prompts