llama.cppでDeepSeek V3.2用のPRを試してみませんか?

Reddit r/LocalLLaMA / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditユーザーが、llama.cppのカスタムPR/ブランチ(“deepseek-dsa”)を使ってDeepSeek V3.2モデルを動かすことを呼びかけ、動作テストを募っています。
  • このブランチは特定のGGUFに対応しており、Q4_K_Mは約404GB、Q8_0は約714GBと非常に大きい容量が見込まれます。
  • GitHubでのブランチ取得方法と、Hugging FaceでのDeepSeek V3.2 GGUF(Light、Speciale、Exp)の入手先リンクが提示されています。
  • 使用するDeepSeek V3.2のチャットテンプレート(models/templates/deepseek-ai-DeepSeek-V3.2.jinja)の指定に加え、CUDAのOOMエラー対策としてubatchの縮小や -fitt 値の増加が案内されています。
  • テストした人は問題があれば報告してほしいと依頼しています。
Anyone want to try my llama.cpp DeepSeek V3.2 PR?

コード: https://github.com/fairydreaming/llama.cpp/tree/deepseek-dsa

git clone https://github.com/fairydreaming/llama.cpp -b deepseek-dsa --single-branch 

対応しているGGUF(Q4_K_M ~ 404GB、Q8_0 ~ 714GB):

使用するチャットテンプレート: models/templates/deepseek-ai-DeepSeek-V3.2.jinja

CUDAでOOMエラーが発生する場合は、ubatchサイズを下げるか、/または -fitt の値を増やしてみてください。

何か問題があれば知らせてください。

により投稿 /u/fairydreaming
[link] [comments]