MTPプルリクエストおよびllama.cppのメインブランチには、画像サポートやさまざまなバグ修正など、数多くの改善がありました。最近、ローカルマシン用に新しいビルドを作りましたが、ガイドを最新の状態に保つのが課題なので、実行しやすくするためにDockerイメージを作りました。すでにllama.cppのDockerイメージを使っているなら、公式ビルドがMTPをサポートするまでの間は、切り替えは簡単だと思います。
ここから、お好みのものを選んでください:
havenoammo/llama:cuda13-server havenoammo/llama:cuda12-server havenoammo/llama:vulkan-server havenoammo/llama:intel-server havenoammo/llama:rocm-server
現時点では私はcuda13しか動作確認できていないので、すべてをテストできたわけではありません。ぜひ一度試してみて、あなたの環境で動くか確認してみてください。
また、UnslothがQwen 3.6向けのMTPモデルをリリースしました。これにより、私が以前作った移植(graft)モデルは時代遅れになっています。見逃していた場合は、こちらで確認できます:
https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF
それらはMTPのいくつかの層を量子化しているのではないかと思います。私は予測精度を高めるために、私のものはQ8の量子化のままにしました。MTP層をより高く量子化すると、より正確になって速度が上がる可能性があり、その代わりにVRAM使用量が増えることになります。ベンチマークをいくつか終えるまで、そしてそれが完全に時代遅れだと確信できるまでは、現時点のバージョンを使い続けます。
最後に、使い方は次のとおりです:
docker run --gpus all --rm
-p 8080:8080
-v ./models:/models
havenoammo/llama:cuda13-server
-m /models/Qwen3.6-27B-MTP-UD-Q8_K_XL.gguf
--port 8080
--host 0.0.0.0
-n -1
--parallel 1
--ctx-size 262144
--fit-target 844
--mmap
-ngl -1
--flash-attn on
--metrics
--temp 1.0
--top-p 0.95
--top-k 20
--jinja
--chat-template-kwargs '{"preserve_thinking":true}'
--ubatch-size 512
--batch-size 2048
--cache-type-k q8_0
--cache-type-v q8_0
--spec-type mtp
--spec-draft-n-max 3 必要に応じて調整してください。MTPで最も重要なのは --spec-type mtp と --spec-draft-n-max 3 です。
[link] [comments]


