離散チルト・マッチング

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、マスク付き拡散型大規模言語モデル（dLLM）のファインチューニングのための、離散チルト・マッチング（DTM）という尤度不要（likelihood-free）の手法を提案し、従来のRL適用で用いられていた配列レベルの周辺尤度に依存しないようにします。
DTMは、報酬を「チルト（傾ける）」した条件下での局所アンマスキング事後分布の状態レベルでの一致としてdLLMのファインチューニングを言い換え、重み付きクロスエントロピー目的関数と明示的な最小化解を導きます。
さらに、学習の安定性を高め、モード崩壊などの問題を抑えるための制御変数（control variates）も提供します。
合成の迷路計画タスクでは、DTMのアニーリングスケジュールと制御変数が学習安定性に与える影響を分析し、大規模実験としてLLaDA-8B-InstructをDTMでファインチューニングすると、SudokuとCountdownで改善しつつ、MATH500やGSM8Kでも競争力を維持することを示しています。