llama.cppのDockerイメージでMTPモデルを実行する方法

Reddit r/LocalLLaMA / 2026/5/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

著者は、ローカルビルド手順の更新が大変だという理由から、MTPモデルを手軽に動かせるようにするためのllama.cpp向けDockerイメージを新たに用意したと述べています。
複数のアクセラレーション環境に対応した「フレーバー」（CUDA 13/12、Vulkan、Intel、ROCm）を提示し、作者は主にCUDA 13でテストしたとしつつ、他の環境でも試すことを勧めています。
UnslothがQwen 3.6向けの新しいMTPモデルをリリースしたため、著者が以前作っていた移植（graft）型のMTPモデルは時代遅れになったと説明し、Hugging Faceへのリンクを示しています。
MTP層の量子化について、より良い予測のためにQ8を使う一方で、精度や速度（およびVRAM使用量）とのトレードオフがある点を論じています。
具体的な`docker run`の例を掲載し、MTPを有効にするうえで特に重要なのが`--spec-type mtp`と`--spec-draft-n-max 3`だと強調しています。

MTPプルリクエストおよびllama.cppのメインブランチには、画像サポートやさまざまなバグ修正など、数多くの改善がありました。最近、ローカルマシン用に新しいビルドを作りましたが、ガイドを最新の状態に保つのが課題なので、実行しやすくするためにDockerイメージを作りました。すでにllama.cppのDockerイメージを使っているなら、公式ビルドがMTPをサポートするまでの間は、切り替えは簡単だと思います。

ここから、お好みのものを選んでください:

havenoammo/llama:cuda13-server havenoammo/llama:cuda12-server havenoammo/llama:vulkan-server havenoammo/llama:intel-server havenoammo/llama:rocm-server

現時点では私はcuda13しか動作確認できていないので、すべてをテストできたわけではありません。ぜひ一度試してみて、あなたの環境で動くか確認してみてください。

また、UnslothがQwen 3.6向けのMTPモデルをリリースしました。これにより、私が以前作った移植（graft）モデルは時代遅れになっています。見逃していた場合は、こちらで確認できます:

https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF

それらはMTPのいくつかの層を量子化しているのではないかと思います。私は予測精度を高めるために、私のものはQ8の量子化のままにしました。MTP層をより高く量子化すると、より正確になって速度が上がる可能性があり、その代わりにVRAM使用量が増えることになります。ベンチマークをいくつか終えるまで、そしてそれが完全に時代遅れだと確信できるまでは、現時点のバージョンを使い続けます。

最後に、使い方は次のとおりです:

docker run --gpus all --rm -p 8080:8080 -v ./models:/models havenoammo/llama:cuda13-server -m /models/Qwen3.6-27B-MTP-UD-Q8_K_XL.gguf --port 8080 --host 0.0.0.0 -n -1 --parallel 1 --ctx-size 262144 --fit-target 844 --mmap -ngl -1 --flash-attn on --metrics --temp 1.0 --top-p 0.95 --top-k 20 --jinja --chat-template-kwargs '{"preserve_thinking":true}' --ubatch-size 512 --batch-size 2048 --cache-type-k q8_0 --cache-type-v q8_0 --spec-type mtp --spec-draft-n-max 3 必要に応じて調整してください。MTPで最も重要なのは --spec-type mtp と --spec-draft-n-max 3 です。

submitted by /u/havenoammo
[link] [comments]

Black Hat USA

AI Business

AIを高速にするPythonライクな新言語「Mojo」、ベータ版に到達

Publickey

Webページやメール内の悪意あるコンテンツによってAIエージェントが乗っ取られるのを防ぐツールを作った

Reddit r/artificial

AIヘアスタイルシミュレーター—たった$4.99で新しい自分を

Dev.to

Anthropicの最初の銀行エージェントがAMLに投入されました

Dev.to

llama.cppのDockerイメージでMTPモデルを実行する方法

要点

関連記事

Black Hat USA

AIを高速にするPythonライクな新言語「Mojo」、ベータ版に到達

Webページやメール内の悪意あるコンテンツによってAIエージェントが乗っ取られるのを防ぐツールを作った

AIヘアスタイルシミュレーター—たった$4.99で新しい自分を

Anthropicの最初の銀行エージェントがAMLに投入されました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer