蒸留(ディスティリング)はどれくらい難しいのか?

Reddit r/LocalLLaMA / 2026/5/9

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • この記事(Redditの質問)は、DeepSeek R1がLlama 3 8BやQwen 2.5(約7B)のような小型モデルへ素早く蒸留されたのに、なぜ蒸留モデルがそれほど多く見られないのかを問いかけています。
  • 特に、蒸留が実際にどれくらい難しく、教師モデルから生徒モデルを作るためにどの程度の手間が必要かを具体的に知りたいとしています。
  • また、蒸留にかかるコスト面(計算資源の費用や実現可能性)についての疑問も投げかけています。
  • さらに、有用な蒸留結果を得るために必要なトークン数やプロンプト数など、必要リソース量の目安を求めています。

DeepSeek R1が出てから1年ほど前のことを覚えていますが、それがかなり素早くLlama 3 8bやQwen 2.5(?)7bに蒸留されていきました。なぜもっと蒸留モデルを見かけないのでしょうか?費用はいくらくらいかかりますか?どれくらいのトークンやプロンプトが必要ですか?

によって投稿 /u/GreedyWorking1499
[リンク] [コメント]