| llama.cpp における到来予定の MTP 対応についての投稿を見たので、AI max 395(DDR5 8000、128GB)で試してみました: 結果:MTP なし(40ish token/s)から、60〜80 token/s に向上しました(画面上では roc m を試していましたが、実際には vulkan で 40〜45 token/s 程度です)。対象によって変わります(一般的な数学系のものは最速のようです)。PP は変わっていないようです。画面キャプチャにある 2 つの GGUF はほぼ同じサイズで、それぞれ約 36GB です まだ qwen 3.5 122B では試せていませんが、起動パラメータには調整が必要になるはずです。ただ、本当に印象的です!! [link] [comments] |
llama.cpp(PR #22673)でストリックス・ヘイロ上にMTPを適用してみた
Reddit r/LocalLLaMA / 2026/5/6
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- Redditのユーザーが、AMD Strix Halo(AI Max 395)上でllama.cppのMTP対応を試し、128GB DDR5-8000環境でradvコンテナをamd-strix-halo-toolboxesとllama.cpp PR #22673に基づいてビルドした。
- `--spec-type mtp --spec-draft-n-max 3` を付けて、Qwen3.6-35BのMTP GGUFを実行したところ、MTPなし(約40〜45 tokens/s)に比べて約60〜80 tokens/sへ性能が伸びた(ただしベースラインはROCm/Vulkanの構成に左右された)。
- 改善幅はプロンプト内容により変動し、一般的な数学タスクが速い傾向があり、perplexity(PP)は大きく変わらないと報告された。
- 画面キャプチャ上で使用したGGUFはどちらもサイズがほぼ同程度(約36GB)で、ユーザーはQwen 3.5 122Bでも追加のパラメータ調整を行いつつ検証する予定だと述べている。




