広告

T$^\star$:軌道(トラジェクトリ)を意識した強化学習によるマスク付き拡散言語モデルのためのプログレッシブ・ブロックスケーリング

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マスク付き拡散言語モデル(MDM)におけるプログレッシブなブロックサイズ拡張のための、TraceRLベースの学習カリキュラムであるT$^\star$を提案する。
  • 小さなブロックのMDMをAR(自己回帰)で初期化した状態から始め、デコーディング中の並列性を高めつつ、数学的推論の性能を概ね維持するように、より大きなブロックへ滑らかに移行する。
  • 著者らは、より大きなブロックサイズを数学的推論ベンチマークで最小限の劣化で用いることができると報告しており、より高速な推論への実用的な道筋が示唆される。
  • この研究はまた、T$^\star$が、同等の性能をもたらし得る別のデコーディングスケジュールへ収束する可能性も示している。

Abstract

我々は、マスク付き拡散言語モデル(MDM)における段階的ブロックサイズ拡張のための、TraceRLベースのシンプルな訓練カリキュラムであるT^\starを提示する。ARによって初期化された小さなブロックのMDMから出発し、T^\starはより大きなブロックへと滑らかに移行し、数学的推論ベンチマークにおいて性能劣化を最小限に抑えつつ、高い並列性を持つデコードを可能にする。さらに、追加の分析により、T^\starは実際には同等の性能を達成する別のデコードスケジュールへ収束する可能性があることが示唆される。

広告
T$^\star$:軌道(トラジェクトリ)を意識した強化学習によるマスク付き拡散言語モデルのためのプログレッシブ・ブロックスケーリング | AI Navigate