Qwen 3.6 27B Q4.0 MTP GGUF

Reddit r/LocalLLaMA / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditの投稿者が、llama.cppのMPT版で「Qwen 3.6 27B Q4.0 MTP GGUF」モデルを動かし、動作は良好だと報告しています。
  • 投稿者は、速度が「9B Qwen 3.5(Q4KM量子化)」と同程度の応答速度だと述べています。
  • GGUFの量子化+MTP構成により、比較的手頃なハード(64GBの統合メモリを持つAMD GPU)でもローカル推論が現実的であることを示唆しています。
  • これは公式発表や厳密なベンチマークではなく、ユーザーの実機テストに基づく内容です。

他の人がアップデートしたかどうかは分かりませんが、LLAMA CPPのMPT版を試してみました。かなりうまく動きます。私は安物のIGPU(AMD、64GBのユニファイドメモリ)を使っています。かなり速いです。9bのQwen 3.5 Q4KMの返信と同じくらいの速さだと言えます。これはなかなかクールです。

提出者 /u/Available_Hornet3538
[リンク] [コメント]