llama.cpp（PR #22673）でストリックス・ヘイロ上にMTPを適用してみた

Reddit r/LocalLLaMA / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Redditのユーザーが、AMD Strix Halo（AI Max 395）上でllama.cppのMTP対応を試し、128GB DDR5-8000環境でradvコンテナをamd-strix-halo-toolboxesとllama.cpp PR #22673に基づいてビルドした。
`--spec-type mtp --spec-draft-n-max 3` を付けて、Qwen3.6-35BのMTP GGUFを実行したところ、MTPなし（約40〜45 tokens/s）に比べて約60〜80 tokens/sへ性能が伸びた（ただしベースラインはROCm/Vulkanの構成に左右された）。
改善幅はプロンプト内容により変動し、一般的な数学タスクが速い傾向があり、perplexity（PP）は大きく変わらないと報告された。
画面キャプチャ上で使用したGGUFはどちらもサイズがほぼ同程度（約36GB）で、ユーザーはQwen 3.5 122Bでも追加のパラメータ調整を行いつつ検証する予定だと述べている。

MTP on strix halo with llama.cpp (PR #22673)

llama.cpp における到来予定の MTP 対応についての投稿を見たので、AI max 395（DDR5 8000、128GB）で試してみました：
その PR を使って https://github.com/kyuz0/amd-strix-halo-toolboxes の radv コンテナを作り直しました： https://github.com/ggml-org/llama.cpp/pull/22673
次に、この GGUF : https://huggingface.co/am17an/Qwen3.6-35BA3B-MTP-GGUF/tree/main を実行し、--spec-type mtp --spec-draft-n-max 3 を追加しました

結果：MTP なし（40ish token/s）から、60〜80 token/s に向上しました（画面上では roc m を試していましたが、実際には vulkan で 40〜45 token/s 程度です）。対象によって変わります（一般的な数学系のものは最速のようです）。PP は変わっていないようです。画面キャプチャにある 2 つの GGUF はほぼ同じサイズで、それぞれ約 36GB です

まだ qwen 3.5 122B では試せていませんが、起動パラメータには調整が必要になるはずです。ただ、本当に印象的です！！

submitted by /u/Edenar
[link] [comments]