Qwen 3.6 27B Q4.0 MTP GGUF

Reddit r/LocalLLaMA / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditの投稿者が、llama.cppのMPT版で「Qwen 3.6 27B Q4.0 MTP GGUF」モデルを動かし、動作は良好だと報告しています。
投稿者は、速度が「9B Qwen 3.5（Q4KM量子化）」と同程度の応答速度だと述べています。
GGUFの量子化＋MTP構成により、比較的手頃なハード（64GBの統合メモリを持つAMD GPU）でもローカル推論が現実的であることを示唆しています。
これは公式発表や厳密なベンチマークではなく、ユーザーの実機テストに基づく内容です。

他の人がアップデートしたかどうかは分かりませんが、LLAMA CPPのMPT版を試してみました。かなりうまく動きます。私は安物のIGPU（AMD、64GBのユニファイドメモリ）を使っています。かなり速いです。9bのQwen 3.5 Q4KMの返信と同じくらいの速さだと言えます。これはなかなかクールです。

提出者 /u/Available_Hornet3538
[リンク] [コメント]