Unsloth が提供しているモデルと、それに対応するモデルとの間で比較した人はいますか?
例えば、私は qwen3.6:35b-a3b Q4_K_M を使っていて、私の MBP(64GB)では約 39 t/s です
Unsloth Studio を使い、unsloth/qwen3.6:35b-a3b UD-Q4_K_XL だと約 57 t/s です
速度の差はかなり大きいです。私が理解しているところでは、Unsloth のモデルは層ごとの感度分析を行い、それぞれの層がどれほど「重要」かに応じて異なる量子化レベルを割り当てます。これは当然モデルを小さくしますし、私が読んだ限りでは、そのおかげでモデルの性能もさらに良くなるはずです。
皆さんの経験はどうですか?
[link] [comments]




