概要: 知識蒸留(Knowledge Distillation; KD)は、大規模言語モデル(LLM)を圧縮するための強力なパラダイムであり、その有効性は、発散(ダイバージェンス)の方向、最適化戦略、データ領域の相互に絡み合った選択に依存しています。私たちは、既存のKD手法の設計を分解し、それらの間のつながりを確立する統一的な見方を提示します。KDをトークンレベルでの再重み付けされた対数尤度(log-likelihood)目的として再定式化します。さらに、Hybrid Policy Distillation(HPD)を提案します。これは、モードのカバー率とモード探索性(mode-seeking)のバランスをとるために、順方向および逆方向のKLの相補的な利点を統合し、オフポリシーデータと、軽量で近似的なオンポリシーサンプリングを組み合わせます。HPDを、長い生成による数学的推論だけでなく、短い生成の対話タスクやコードタスクでも検証し、さまざまなモデルファミリーおよびスケールにわたって、最適化の安定性、計算効率、最終的な性能が向上することを示します。本研究に関連するコードは https://github.com/zwhong714/Hybrid-Policy-Distillation で公開されています。
LLM向けハイブリッド・ポリシー蒸留(HPD)
arXiv cs.CL / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、LLMに対する知識蒸留(KD)の既存手法が、発散(divergence)の方向、最適化戦略、データ領域の選び方によってどう異なるかを整理し、KDをトークン単位の重み付き対数尤度目的として再定式化します。
- さらに、forward KLとreverse KLの利点を統合するHybrid Policy Distillation(HPD)を提案し、モードのカバレッジとモード探索のバランスを取ります。
- HPDはオフポリシーデータに加えて、軽量な近似オンポリシーサンプリングを組み合わせることで、オンポリシー学習を全面的に行う場合のコストを抑えます。
- 長い生成を伴う数学推論と、短い生成を行う対話・コード課題で検証した結果、HPDは最適化の安定性、計算効率、最終性能を複数のモデル系統とスケールにわたって改善することを示します。
- 著者はGitHubで関連コードも公開しており、再現や追加検証を行いやすくしています。




