TRIMS：軌道順位付けによるインストラクション・マスクド監督で拡散言語モデルを導く

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

拡散言語モデル（DLM）は並列復号による低遅延生成が期待される一方で、標準訓練が「トークンがどの順で現れるか（復号軌道）」を明示的に監督しないため、訓練と推論でのミスマッチが効率低下につながると指摘しています。
提案手法TRIMSは、既存のマスク拡散言語モデル（MDLM）学習に最小オーバーヘッドで「復号軌道に基づく監督」を組み込む、軽量な教師信号による軌道ガイド付き微調整フレームワークです。

要旨: 拡散言語モデル（DLMs）は、並列デコーディングによる低遅延生成への有望な道筋を提供しますが、その実用的な効率はデコーディング軌跡に大きく依存します。実際には、通常の学習がトークンの開示順序に対する明示的な教師信号を提供しないため、この利点が十分に具現化されないことがしばしばあります。これにより、学習と推論の不一致（train-inference mismatch）が生じ、望ましくないデコーディング挙動につながります。我々は、軌跡に基づく指示マスク付き教師（Trajectory-Ranked Instruction Masked Supervision; TRIMS）を提案します。これは、最小限のオーバーヘッドで、標準的なMasked Diffusion Language Model（MDLM）の学習に軌跡教師信号を注入する、シンプルな軌跡誘導型の教師付き微調整の枠組みです。高コストなDLMベースの蒸留に頼る代わりに、TRIMSは自己回帰型教師からの軽量な信号を用いて、軌跡を考慮したマスキング戦略を導き、モデルがより効果的なデコーディング順序を学習するよう促します。数理およびコーディングのベンチマークにおけるLLaDAとDreamでの実験では、TRIMSが標準的なMDLM学習および学習なしの加速ベースラインの両方に対して、精度と並列性のトレードオフを大幅に改善することが示されています。また、訓練コストを大幅に低くしつつ、従来の蒸留ベースの手法と競争力のある性能を達成します。さらに分析すると、TRIMSはより良いデコーディング軌跡をもたらし、DLMに対する軌跡誘導型教師の有効性が検証されます。