こんにちは、ここでDeepSeek v4向けの実験的なllama.cpp対応を見つけられます。そしてこちらには、(笑)128GBのRAMで「そのまま」推論を実行できるGGUFがあります。私の限られたテストでは、2ビットに量子化したとしてもモデルの出来はかなり堅実に見え、MacBook M3 Maxでの17 t/sという速度はなかなか面白いと思います。使える領域に入ってきた、という感じです。
私がやったことは、ルーティングされるエキスパートを2ビットに強く量子化することで、誤差とサイズのバランスを取るために異なる2種類の2ビット量子化を使用したことです。それ以外のモデル部分、つまり各層にある共有エキスパートも含めてQ8です。重みの大部分がルーティングされるエキスパートにあるので、モデルの中で一番賢明な部分をいじる価値はありません。
2ビット量子化でも、Qwen 3.6 27Bより強いモデルになるのではという感触がありますが、これはそれとチャットして得られる応答の品質に基づく「感触」にすぎません。まだまだ実験が必要で、ベンチマークも行うべきです。
EDIT CMakeエラーについてごめんなさい。私はllama.cppの標準の量子化器を使うのではなく、出荷しないことにしたツールでGGUFを作っていました(まだ本番投入の準備ができていない…主にハックです)。その代わりです。これで問題は解決しました。さらに、いくつか最適化した結果、Metalでの推論は21トークン/秒になりました。
EDIT2 また長いコンテキストのバグも修正しました。
[link] [comments]




