大規模言語モデルの知識蒸馏

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ガイド付きチェーン・オブ・思考を用いた強化学習と知識蒸馏を組み合わせた、リソース効率の高い大規模言語モデル圧縮フレームワークを提案する。教師には Qwen 3B、学生には Qwen 0.5B を用いる。
英語データセット Dolly-15k、スペイン語 Dolly-15k、及びコードデータセット BugNet と PyTorrent に対して蒸留を適用し、英語では教師の性能の 70-91%、スペイン語では最大 95%、コードでは最大 Rouge-L 93.5% に達した（英語向けにチューニングされたハイパーパラメータを用いる）。
コーディングタスクにおいて、CoT 注釈付き Codeforces データに対するチェーン・オブ・思考プロンプティングをグループ相対方策最適化と組み合わせて導入することで、知識蒸留のみの場合と比べて推論の一貫性と解法の正確性が向上する。
訓練後の4ビット重み量子化は、メモリ使用量と推論レイテンシをさらに低減し、リソース制約のある環境でのデプロイを可能にする。

要約：私たちは、知識蒸留を通じて大規模言語モデルを圧縮するためのリソース効率の高いフレームワークを、導かれた思考過程を用いた強化学習と組み合わせて提案します。教師モデルとして Qwen 3B、学生モデルとして Qwen 0.5B を採用し、英語 Dolly-15k、スペイン語 Dolly-15k、コードデータセットの BugNet および PyTorrent に対して知識蒸留を適用し、英語設定でハイパーパラメータを調整して学生の性能を最適化します。タスク全体で、蒸留された生徒は教師の能力のかなりの部分を保持しつつ、依然として大幅に小型です：英語で 70%〜91%、スペイン語で最大 95%、コードでは Rouge-L が最大 93.5%。コーディングタスクでは、CoT 注釈付き Codeforces データを用いた思考過程プロンプティングと、グループ相対ポリシー最適化を組み合わせることで、知識蒸留のみの場合と比較して推論の一貫性と解法の正確性が向上します。訓練後の4ビット重み量子化により、メモリフットプリントと推論レイテンシがさらに低減します。これらの結果は、思考過程を導く強化学習と知識蒸留を組み合わせることで、リソース制約のある環境でのデプロイに適した、コンパクトで効率的なモデルを生み出せることを示しています。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

大規模言語モデルの知識蒸馏

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer