llama.cpp(PR #22673)でストリックス・ヘイロ上にMTPを適用してみた

Reddit r/LocalLLaMA / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Redditのユーザーが、AMD Strix Halo(AI Max 395)上でllama.cppのMTP対応を試し、128GB DDR5-8000環境でradvコンテナをamd-strix-halo-toolboxesとllama.cpp PR #22673に基づいてビルドした。
  • `--spec-type mtp --spec-draft-n-max 3` を付けて、Qwen3.6-35BのMTP GGUFを実行したところ、MTPなし(約40〜45 tokens/s)に比べて約60〜80 tokens/sへ性能が伸びた(ただしベースラインはROCm/Vulkanの構成に左右された)。
  • 改善幅はプロンプト内容により変動し、一般的な数学タスクが速い傾向があり、perplexity(PP)は大きく変わらないと報告された。
  • 画面キャプチャ上で使用したGGUFはどちらもサイズがほぼ同程度(約36GB)で、ユーザーはQwen 3.5 122Bでも追加のパラメータ調整を行いつつ検証する予定だと述べている。
MTP on strix halo with llama.cpp (PR #22673)

llama.cpp における到来予定の MTP 対応についての投稿を見たので、AI max 395(DDR5 8000、128GB)で試してみました:
その PR を使って https://github.com/kyuz0/amd-strix-halo-toolboxes の radv コンテナを作り直しました: https://github.com/ggml-org/llama.cpp/pull/22673
次に、この GGUF : https://huggingface.co/am17an/Qwen3.6-35BA3B-MTP-GGUF/tree/main を実行し、--spec-type mtp --spec-draft-n-max 3 を追加しました

結果:MTP なし(40ish token/s)から、60〜80 token/s に向上しました(画面上では roc m を試していましたが、実際には vulkan で 40〜45 token/s 程度です)。対象によって変わります(一般的な数学系のものは最速のようです)。PP は変わっていないようです。画面キャプチャにある 2 つの GGUF はほぼ同じサイズで、それぞれ約 36GB です

まだ qwen 3.5 122B では試せていませんが、起動パラメータには調整が必要になるはずです。ただ、本当に印象的です!!

submitted by /u/Edenar
[link] [comments]