20Bの教師モデルから0.5Bの蒸留モデルを自作した — RTX 4080一枚でできるローカルLLM蒸留入門

Zenn / 3/13/2026

💬 OpinionTools & Practical UsageModels & Research

共有:

Key Points

20Bの教師モデルから0.5Bの蒸留モデルを自作する手順と前提条件を解説
RTX 4080一枚でローカルLLM蒸留が可能であることを実演し、実用的な資源要件を提示
蒸留時のデータ選択・学習設定・品質と推論速度のトレードオフを詳述
初心者向けのセットアップ手順とトラブルシューティングのポイントを提供

動機 — 「自分のモデル」が欲しかった 300回以上のLLM実験をしてきた。プロンプトを変え、温度を変え、ペルソナを変え、忖度を測り、計画能力を試した。でも結局、モデル自体は誰かが作ったものを使っているだけだった。ある日ふと思った。「これだけ実験したなら、自分でモデルを作れるんじゃないか？」言い換えると——20Bの大きなモデル（gpt-oss:20b）の"知識"を、モバイルでも動く0.5Bの小さなモデルに詰め込めないか。これが知識蒸留（Knowledge Distillation）だ。やってみたら、RTX 4080一枚で、教師データ生成12分 + 訓練2分20秒 + 変...

Continue reading this article on the original site.

Read original →