大規模言語モデルに対するオンポリス蒸留の調査

arXiv cs.LG / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデル向けのオンポリス蒸留（OPD）手法を調査し、推論時に露出バイアス（exposure bias）を引き起こし得る支配的なオフポリス蒸留パラダイムと対比する。
フェ＝ダイバージェンス（f-divergences）に基づく統一的な枠組みを提案し、OPDのアプローチを3つの次元（フィードバック信号の種類、教師へのアクセスの水準、損失の粒度）で整理する。
調査では、発散（ダイバージェンス）の最小化、報酬に導かれた学習、自分自身との対戦（セルフプレイ）など、さまざまなOPDの派生がこの分類法にどのように当てはまるかを検討し、代表的手法や報告されている産業での導入事例を分析する。
蒸留のスケーリング則の導出、不確実性を考慮したフィードバックの改善、トークン／シーケンス出力のみにとどまらずエージェント全体レベルへ蒸留を拡張すること、といった主要な未解決の研究課題を強調する。

要旨: 知識蒸留は、最先端の大規模言語モデル（LLM）から、小型で実運用可能な学生モデルへ、推論と領域専門知識を移転するための主要なメカニズムとなっています。ですが、支配的なパラダイムは依然として extit{オフポリシー} です。すなわち、学生モデルは静的な教師生成データで学習し、学習中に自分自身の誤りに遭遇することはありません。この学習-テストの不一致は、 extit{露出バイアス（exposure bias）} の一例であり、推論時に予測誤差が自己回帰的に増幅してしまいます。オンポリシー蒸留（OPD）は、学生に自分自身で軌道（トラジェクトリ）を生成させ、そこから生じた自己生成出力に対して教師フィードバックを与えることで、この問題に対処し、インタラクティブな模倣学習の理論に基づいて蒸留を位置づけます。発散の最小化、報酬に導かれた学習、自己対戦（self-play）といった領域にまたがって急速に発展しているにもかかわらず、OPDの文献は未だ断片化しており、統一的な取り扱いが存在しません。本調査は、LLMに対するOPDの最初の包括的な概観を提供します。オンポリシーのサンプル上で一つの統一的な $f$ -divergence の枠組みを導入し、3つの直交する次元に沿って研究の全体像を整理します。それは、
\emph{フィードバック信号}（ロジットに基づく、アウトカムに基づく、または自己対戦）、
\emph{教師アクセス}（ホワイトボックス、ブラックボックス、または教師なし）、
\emph{損失の粒度}（トークンレベル、シーケンスレベル、またはハイブリッド）です。
代表的な手法を体系的に分析し、産業界での導入事例を検討し、蒸留スケーリング則、不確実性を考慮したフィードバック、エージェントレベル蒸留といった未解決の問題を特定します。