Qwen 3.6 27B をV100 32GBでMTP(llama.cpp)動作:54 t/sを記録

Reddit r/LocalLLaMA / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ユーザーは、am17anのMTPブランチ版llama.cppを使い、PCIeアダプタ経由でNVIDIA V100 32GB SXM 1枚上にQwen 3.6 27Bを載せて動作させた結果を報告しており、ビルドとllama-serverの起動は問題なく完了したとしています。
  • テストでは、MTP GGUF(q8_0)、KVキャッシュ有効、200kキャッシュ上限を用い、VS Code Copilotのような用途を想定した設定で、MTPなしの約29〜30 t/sから、MTPあり(カード150W制限)で約54〜55 t/sへとスループットが向上したと述べています。
  • 約50kトークン以降は速度が40〜45 t/s程度まで落ちるものの、ツール呼び出しやサブエージェント的な動作、コードレビュー/リファクタリングといった作業では引き続き高い実用性があるとしています。
  • 投稿者はam17anに感謝し、MTPブランチの成熟への期待を示しており、V100級ハードでローカル推論の性能改善が期待できる“予兆”として捉えられています。

ちょっとしたメモですが、pcieカードアダプタのようなものの1つを使って、v100 32GB SXMモジュール上で、am17anのllama.cppのMTPブランチにより良い結果が出ました。プルしてビルドを一発で行い、llama-serverも引っかかることなく動作しました。

am17anのMTP GGUF、q8_0のkvキャッシュ、そしてキャッシュ制限200kを使ってテストしました。vscode copilotとして動作させています。

MTPなしで29-30 t/s

MTPありで54-55t/s(カードの消費電力制限を150Wに設定)

ただし、50kトークンまで絞り込んだ後は40-45 t/sまで落ちますが、ツール呼び出し、サブエージェントでは非常に良好です。さらに、とても洞察に富んだコードレビューやリファクタリングも行えました。

am17anありがとう!このブランチが成熟していくのを楽しみにしています。これは素晴らしいものです。

submitted by /u/m94301
[link] [comments]