大規模言語モデルの知識蒸馏

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ガイド付きチェーン・オブ・思考を用いた強化学習と知識蒸馏を組み合わせた、リソース効率の高い大規模言語モデル圧縮フレームワークを提案する。教師には Qwen 3B、学生には Qwen 0.5B を用いる。
  • 英語データセット Dolly-15k、スペイン語 Dolly-15k、及びコードデータセット BugNet と PyTorrent に対して蒸留を適用し、英語では教師の性能の 70-91%、スペイン語では最大 95%、コードでは最大 Rouge-L 93.5% に達した(英語向けにチューニングされたハイパーパラメータを用いる)。
  • コーディングタスクにおいて、CoT 注釈付き Codeforces データに対するチェーン・オブ・思考プロンプティングを グループ相対方策最適化と組み合わせて導入することで、知識蒸留のみの場合と比べて推論の一貫性と解法の正確性が向上する。
  • 訓練後の4ビット重み量子化は、メモリ使用量と推論レイテンシをさらに低減し、リソース制約のある環境でのデプロイを可能にする。

要約:私たちは、知識蒸留を通じて大規模言語モデルを圧縮するためのリソース効率の高いフレームワークを、導かれた思考過程を用いた強化学習と組み合わせて提案します。教師モデルとして Qwen 3B、学生モデルとして Qwen 0.5B を採用し、英語 Dolly-15k、スペイン語 Dolly-15k、コードデータセットの BugNet および PyTorrent に対して知識蒸留を適用し、英語設定でハイパーパラメータを調整して学生の性能を最適化します。タスク全体で、蒸留された生徒は教師の能力のかなりの部分を保持しつつ、依然として大幅に小型です:英語で 70%〜91%、スペイン語で最大 95%、コードでは Rouge-L が最大 93.5%。コーディングタスクでは、CoT 注釈付き Codeforces データを用いた思考過程プロンプティングと、グループ相対ポリシー最適化を組み合わせることで、知識蒸留のみの場合と比較して推論の一貫性と解法の正確性が向上します。訓練後の4ビット重み量子化により、メモリフットプリントと推論レイテンシがさらに低減します。これらの結果は、思考過程を導く強化学習と知識蒸留を組み合わせることで、リソース制約のある環境でのデプロイに適した、コンパクトで効率的なモデルを生み出せることを示しています。

大規模言語モデルの知識蒸馏 | AI Navigate