OPDを解明する:大規模言語モデルにおける長さのインフレと安定化戦略

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 大規模言語モデルに対するオンポリシー蒸留(OPD)では、「切り詰め崩壊(truncation collapse)」という失敗モードが起こり得る。オンポリシーのロールアウトが突然長さをインフレさせ、その結果、切り詰められた軌跡が学習データを支配して学習が不安定化する。
  • 観測された切り詰め崩壊は、反復(レピティション)の飽和と相関しており、偏った勾配信号が生成されることで検証性能が急激に低下する。
  • 本論文では、この問題は「生徒(student)によるデータ収集」と「蒸留目的」との有害な相互作用に起因するとしている。蒸留目的は暗黙的に長く反復的なロールアウトを有利にしてしまう。
  • 解決策として著者らはStableOPDを提案する。これは、参照ベースのダイバージェンス制約と、ロールアウトの混合蒸留を組み合わせることで、反復による長さインフレを抑え、学習を安定化する。
  • 複数の数学推論データセットにわたる実験の結果、StableOPDは切り詰め崩壊を防ぎ、学習ダイナミクスを安定化し、ベースラインOPDに対して平均7.2%の性能向上を達成する。

Abstract

オンポリシー蒸留(OPD)は、より強力な教師からの監督を活用しつつ、学生モデルを自らが誘導する分布の下で学習させます。私たちはOPDの失敗モードを特定しました。すなわち、学習が進むにつれて、オンポリシーのロールアウトが突然の長さインフレーションを起こし、切り詰められた軌跡が学習データを支配するようになります。この切り詰め崩壊は、急激な反復の飽和と同時に起こり、偏った勾配信号を誘発します。その結果、学習は深刻に不安定化し、検証性能が急激に低下します。私たちは、この問題が、学生によって誘導されたデータ収集と蒸留目的との相互作用に起因すると考えています。蒸留目的は暗黙的に長く反復的なロールアウトを有利にするためです。この課題に対処するために、私たちはStableOPDを提案します。StableOPDは、参照ベースの発散(divergence)制約とロールアウト混合蒸留を組み合わせた、安定化されたOPDフレームワークです。これらにより、反復に起因する長さインフレーションが軽減され、さらにOPDの学習が安定化します。複数の数学推論データセットにおいて、私たちの手法は切り詰め崩壊を防ぎ、学習ダイナミクスを安定化させ、平均で7.2%の性能向上を達成します。