Lightning OPD:オフライン・オンポリシー・蒸留による大規模推論モデルの効率的な事後学習

arXiv cs.LG / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、学習中にライブの教師推論サーバを動かす代わりに、SFTロールアウトから教師の対数尤度(log-probabilities)を事前計算して、オンポリシー蒸留(OPD)をオフライン化することを探究する。
  • 「teacher consistency(教師の一貫性)」という重要な要件があることを見いだす。つまり、SFTとOPDの両方で同一の教師モデルを用いる必要があり、これを破ると、低減不可能な勾配バイアスが生じ、学習が最適でない固定点へと収束してしまう。
  • これに基づき、著者らは「Lightning OPD」と呼ぶオフラインOPDフレームワークを提案する。これは教師の一貫性を強制しつつ、ライブ教師サーバを完全に不要にする。
  • 数学的推論およびコード生成に関する実験では、Lightning OPDが、勾配の不一致が有界であることに加え、ポリシードリフトの防止に役立つ暗黙の正則化によって、最先端(state-of-the-art)の結果を達成することが示される。
  • SFTで初期化したQwen3-8B-Baseモデルを用いて、Lightning OPDは30GPU時間でAIME 2024において69.9%を達成し、標準的なOPDに比べて4.0xの高速化と、学術的な事後学習研究に対する参入障壁の低さを報告している。