llama.cppでのDeepSeek v4 Flash(実験的推論)

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この投稿では、DeepSeek v4をllama.cppに対して実験的に対応させる内容と、約128GBのRAMで推論を実行することを想定したGGUFチェックポイントが紹介されています。
  • 著者は、ルーテッド(routed)エキスパートを2ビットに強く量子化してもモデルが良好に動作したと報告しており、一方で残りの共有部分は品質とサイズのバランスを取るためQ8のままにしているとのことです。
  • いくつかの限定テストでは、MacBook M3 Maxでの推論速度が当初約17 tokens/secだったものの、Metal関連の最適化により約21 tokens/secに改善されたと述べています。
  • 最終的な品質については確証がないものの、会話の応答品質の体感としてはQwen 3.6 27Bを上回る可能性があるという期待を示し、さらなるベンチマークが必要だとしています。
  • 追記では、非標準のGGUF生成ツールを使ったことが原因のCMakeエラーを修正したこと、さらにロングコンテキストの不具合も解決したことが報告されています。

こんにちは、ここでDeepSeek v4向けの実験的なllama.cpp対応を見つけられます。そしてこちらには、(笑)128GBのRAMで「そのまま」推論を実行できるGGUFがあります。私の限られたテストでは、2ビットに量子化したとしてもモデルの出来はかなり堅実に見え、MacBook M3 Maxでの17 t/sという速度はなかなか面白いと思います。使える領域に入ってきた、という感じです。

私がやったことは、ルーティングされるエキスパートを2ビットに強く量子化することで、誤差とサイズのバランスを取るために異なる2種類の2ビット量子化を使用したことです。それ以外のモデル部分、つまり各層にある共有エキスパートも含めてQ8です。重みの大部分がルーティングされるエキスパートにあるので、モデルの中で一番賢明な部分をいじる価値はありません。

2ビット量子化でも、Qwen 3.6 27Bより強いモデルになるのではという感触がありますが、これはそれとチャットして得られる応答の品質に基づく「感触」にすぎません。まだまだ実験が必要で、ベンチマークも行うべきです。

EDIT CMakeエラーについてごめんなさい。私はllama.cppの標準の量子化器を使うのではなく、出荷しないことにしたツールでGGUFを作っていました(まだ本番投入の準備ができていない…主にハックです)。その代わりです。これで問題は解決しました。さらに、いくつか最適化した結果、Metalでの推論は21トークン/秒になりました。

EDIT2 また長いコンテキストのバグも修正しました。

submitted by /u/antirez
[link] [comments]