ここでの秘訣は、学生モデルが文中の次のトークンを当てようとするだけではないことです。これは、ほとんどのAIが学習で行っているやり方です。代わりに、教師モデルは、すべての単語についてその「思考プロセス」をまるごと共有します。これにより学生には、詳細な確率分布が与えられます。小型のものを作りたいなら、これはかなり直感に反します!その結果、学生は各ステップでずっと「豊富な」情報を得られ、自力だけで学ぶよりもはるかに効率よく学習できます。このような徹底的なコーチングのおかげで、Gemma蒸留モデルは、かなり大きいモデルを上回ることができます。
私が共有したこの論文集を読み進めると、仕組みをよりよく理解できます。[Gemma 4以前の内容ですが、Gemma 4でも同じ根本的なアプローチを使っています。違うのは、教師(3.1 Pro)が今はより優れているという点です]
https://app.7scholar.com/shared/9dca3315-36d1-40ce-bee2-cf6922c0136c/Q707uXeQjQ70
[リンク] [コメント]




