ブロック単位の局所性によるマスク付き拡散言語モデルの学習可能性について

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マスク付き拡散言語モデル（MDM）を標準の自己回帰型LLMと比較し、線形回帰・グラフの経路探索・数独という3つの構造化タスクで学習安定性の違いを検証している。
ランダムマスキングのブロック型MDMは、線形回帰の学習を安定して行えず、経路探索では学習ダイナミクスの分散が大きい一方で、数独では自己回帰モデルを上回る結果が示されている。
不安定性の緩和として、JigsawとScatterの2つの局所性を考慮したブロック型設計を提案し、ブロック内部に左から右への帰納バイアスを導入しつつ、ブロックレベルでは拡散的な反復洗練を維持している。
実験的には、Jigsawが線形回帰で自己回帰型と同等の安定性を達成し、数独でも強い性能を維持し、Scatterは経路探索における拡散の計画優位性を保っている。
これらの結果は、順序付き生成においてランダムマスキングだけで拡散LMを実装するのは不十分であり、より適切な局所性ベース／非ランダムマスキングのアプローチが求められることを示唆している。

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA

Tech.eu