llama.cppでDeepSeek V3.2用のPRを試してみませんか？

Reddit r/LocalLLaMA / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditユーザーが、llama.cppのカスタムPR/ブランチ（“deepseek-dsa”）を使ってDeepSeek V3.2モデルを動かすことを呼びかけ、動作テストを募っています。
このブランチは特定のGGUFに対応しており、Q4_K_Mは約404GB、Q8_0は約714GBと非常に大きい容量が見込まれます。
GitHubでのブランチ取得方法と、Hugging FaceでのDeepSeek V3.2 GGUF（Light、Speciale、Exp）の入手先リンクが提示されています。
使用するDeepSeek V3.2のチャットテンプレート（models/templates/deepseek-ai-DeepSeek-V3.2.jinja）の指定に加え、CUDAのOOMエラー対策としてubatchの縮小や -fitt 値の増加が案内されています。
テストした人は問題があれば報告してほしいと依頼しています。

git clone https://github.com/fairydreaming/llama.cpp -b deepseek-dsa --single-branch

対応しているGGUF（Q4_K_M ~ 404GB、Q8_0 ~ 714GB）:

使用するチャットテンプレート: models/templates/deepseek-ai-DeepSeek-V3.2.jinja

CUDAでOOMエラーが発生する場合は、ubatchサイズを下げるか、/または -fitt の値を増やしてみてください。

何か問題があれば知らせてください。

AI Business

The Batch

日経XTECH

日経XTECH

日経XTECH