| コード: https://github.com/fairydreaming/llama.cpp/tree/deepseek-dsa 対応しているGGUF(Q4_K_M ~ 404GB、Q8_0 ~ 714GB):
使用するチャットテンプレート: CUDAでOOMエラーが発生する場合は、ubatchサイズを下げるか、/または 何か問題があれば知らせてください。 [link] [comments] |
llama.cppでDeepSeek V3.2用のPRを試してみませんか?
Reddit r/LocalLLaMA / 2026/5/7
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- Redditユーザーが、llama.cppのカスタムPR/ブランチ(“deepseek-dsa”)を使ってDeepSeek V3.2モデルを動かすことを呼びかけ、動作テストを募っています。
- このブランチは特定のGGUFに対応しており、Q4_K_Mは約404GB、Q8_0は約714GBと非常に大きい容量が見込まれます。
- GitHubでのブランチ取得方法と、Hugging FaceでのDeepSeek V3.2 GGUF(Light、Speciale、Exp)の入手先リンクが提示されています。
- 使用するDeepSeek V3.2のチャットテンプレート(models/templates/deepseek-ai-DeepSeek-V3.2.jinja)の指定に加え、CUDAのOOMエラー対策としてubatchの縮小や -fitt 値の増加が案内されています。
- テストした人は問題があれば報告してほしいと依頼しています。




