LLM向けハイブリッド・ポリシー蒸留（HPD）

arXiv cs.CL / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、LLMに対する知識蒸留（KD）の既存手法が、発散（divergence）の方向、最適化戦略、データ領域の選び方によってどう異なるかを整理し、KDをトークン単位の重み付き対数尤度目的として再定式化します。
さらに、forward KLとreverse KLの利点を統合するHybrid Policy Distillation（HPD）を提案し、モードのカバレッジとモード探索のバランスを取ります。
HPDはオフポリシーデータに加えて、軽量な近似オンポリシーサンプリングを組み合わせることで、オンポリシー学習を全面的に行う場合のコストを抑えます。
長い生成を伴う数学推論と、短い生成を行う対話・コード課題で検証した結果、HPDは最適化の安定性、計算効率、最終性能を複数のモデル系統とスケールにわたって改善することを示します。
著者はGitHubで関連コードも公開しており、再現や追加検証を行いやすくしています。

概要: 知識蒸留（Knowledge Distillation; KD）は、大規模言語モデル（LLM）を圧縮するための強力なパラダイムであり、その有効性は、発散（ダイバージェンス）の方向、最適化戦略、データ領域の相互に絡み合った選択に依存しています。私たちは、既存のKD手法の設計を分解し、それらの間のつながりを確立する統一的な見方を提示します。KDをトークンレベルでの再重み付けされた対数尤度（log-likelihood）目的として再定式化します。さらに、Hybrid Policy Distillation（HPD）を提案します。これは、モードのカバー率とモード探索性（mode-seeking）のバランスをとるために、順方向および逆方向のKLの相補的な利点を統合し、オフポリシーデータと、軽量で近似的なオンポリシーサンプリングを組み合わせます。HPDを、長い生成による数学的推論だけでなく、短い生成の対話タスクやコードタスクでも検証し、さまざまなモデルファミリーおよびスケールにわたって、最適化の安定性、計算効率、最終的な性能が向上することを示します。本研究に関連するコードは https://github.com/zwhong714/Hybrid-Policy-Distillation で公開されています。