OPDを解明する:大規模言語モデルにおける長さのインフレと安定化戦略
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 大規模言語モデルに対するオンポリシー蒸留(OPD)では、「切り詰め崩壊(truncation collapse)」という失敗モードが起こり得る。オンポリシーのロールアウトが突然長さをインフレさせ、その結果、切り詰められた軌跡が学習データを支配して学習が不安定化する。
- 観測された切り詰め崩壊は、反復(レピティション)の飽和と相関しており、偏った勾配信号が生成されることで検証性能が急激に低下する。
- 本論文では、この問題は「生徒(student)によるデータ収集」と「蒸留目的」との有害な相互作用に起因するとしている。蒸留目的は暗黙的に長く反復的なロールアウトを有利にしてしまう。
- 解決策として著者らはStableOPDを提案する。これは、参照ベースのダイバージェンス制約と、ロールアウトの混合蒸留を組み合わせることで、反復による長さインフレを抑え、学習を安定化する。
- 複数の数学推論データセットにわたる実験の結果、StableOPDは切り詰め崩壊を防ぎ、学習ダイナミクスを安定化し、ベースラインOPDに対して平均7.2%の性能向上を達成する。



