Lightning OPD：オフライン・オンポリシー・蒸留による大規模推論モデルの効率的な事後学習

arXiv cs.LG / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、学習中にライブの教師推論サーバを動かす代わりに、SFTロールアウトから教師の対数尤度（log-probabilities）を事前計算して、オンポリシー蒸留（OPD）をオフライン化することを探究する。
「teacher consistency（教師の一貫性）」という重要な要件があることを見いだす。つまり、SFTとOPDの両方で同一の教師モデルを用いる必要があり、これを破ると、低減不可能な勾配バイアスが生じ、学習が最適でない固定点へと収束してしまう。
これに基づき、著者らは「Lightning OPD」と呼ぶオフラインOPDフレームワークを提案する。これは教師の一貫性を強制しつつ、ライブ教師サーバを完全に不要にする。
数学的推論およびコード生成に関する実験では、Lightning OPDが、勾配の不一致が有界であることに加え、ポリシードリフトの防止に役立つ暗黙の正則化によって、最先端（state-of-the-art）の結果を達成することが示される。
SFTで初期化したQwen3-8B-Baseモデルを用いて、Lightning OPDは30GPU時間でAIME 2024において69.9%を達成し、標準的なOPDに比べて4.0xの高速化と、学術的な事後学習研究に対する参入障壁の低さを報告している。

Publickey

日経XTECH

日経XTECH

日経XTECH

日経XTECH