蒸留モデルって何? - DeepSeek R1の登場から1年の節目に振り返る

Zenn / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 「蒸留モデル」を、より大きい(教師)モデルの知識を小さい(生徒)モデルへ学習させて再現・効率化する枠組みとして整理し、その狙いを説明する内容。
  • DeepSeek R1の登場から1年という節目を起点に、蒸留がどのような文脈で注目されてきたかを振り返る。
  • 蒸留の価値は、推論コストや運用負荷を下げつつ、性能や振る舞いを維持する点にあると示す。
  • 蒸留の考え方を理解することで、モデル選定やシステム設計(小型化・高速化・コスト最適化)の判断に繋がる。
  • 研究・実装の観点から、蒸留を「何のために」「どう使うか」を俯瞰できる解説になっている。
はじめに ふと1年前を振り返った時にフジテレビ騒動とDeepSeekのニュースを思い出しました。さすがにフジテレビについてZennにまとめる訳にはいかないので、DeepSeekについて書こうと決めました。特に一時期話題になっていた 「蒸留モデル」 とは何かについて、改めて振り返っていこうと思います。 LLMの知識蒸留(Distillation)とは DeepSeek-R1は671Bパラメータという巨大モデルです。家庭用GPUで動かすには現実的ではありません。そこで「軽いのに賢い」モデルを作る技術が 蒸留 です。蒸留の本質は「大きなモデル(教師)の思考の癖を小さなモデル(生徒)に模...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →