Qwen3.6 27BをFP8で動作:単一のRTX 5000 PRO 48GBで200kトークンのBF16 KVキャッシュ、80 TPS

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、RTX 5000 PRO 48GB(単一GPU)上でQwen3.6 27BをFP8として動かし、200kトークン分のBF16 KVキャッシュを用いて80 TPSを達成したと述べています。
  • モデル重みだけでなくKVも量子化する構成と比べて、KVを非量子化にすることで誤差の蓄積を抑え、「エージェント型コーディング」の性能が改善すると主張しています。
  • 実運用向けのシングルGPU手順として、vLLM 0.20.1、CUDA 12.9、Qwen公式のQwen3.6-27B-FP8、FlashInferを中心にした構成が提示されています。
  • 高いインタラクティブ性を狙いつつ、自動ツール選択やツール/推論パーサの指定など、マルチモーダル/エージェント向けオプションも含めた設定が示されています。
  • 予備的な結果として、MTP=2(推論の先読みトークン数2)でコード生成が概ね60〜90 TPSになると述べ、詳細ベンチマークは後日共有予定です。

----START HUMAN TEXT----

みなさん、こんにちは。

27Bを24GBカードに載せることや、それに関わる量子化のあれこれについて、いくつもの投稿を見かけました。どれも素晴らしい仕事ですが、結局のところ、KVが量子化された量子化モデルは、量子化されていないものよりも誤差をより速く積み増してしまい、エージェントによるコーディングに明確に影響します。

私は、48GBのGPUなら十分にVRAMがあり、Blackwell加速されたFP8のような、本当に良い選択肢で、ほとんどの量子化の厄介さを避けられると考えました。幸運にも、Qwenが27Bモデルの独自FP8バリアントをリリースしてくれました。

本気で言うと:あの「10kドルで何を買えばいい?」系の投稿に対する答えが、全部あるかもしれないと思っています。pro5k、64GBのRAM、まともなCPU/マザーボード。そしてBlackwellのハードウェアアクセラレーションと、量子化されていないKVのようなものを使って、27BのFP8量子化版を“バッチリ”動かせます。静かで、冷却も十分で、サイズも小さく、速い……本当に素晴らしいです。

完成レシピ:

  • vLLM 0.20.1
  • CUDA 12.9
  • QwenのQwen3.6 27Bの公式FP8量子化。これは、マルチモダリティ、MTPなど、Qwen3.6の機能がすべて入っています。
  • 200kトークンでのBF16 KVキャッシュ @ 1.09x concurrency
  • 実ベンチマークの数値は追って公開します――いま実行中です。

これらの設定:

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True vllm serve Qwen/Qwen3.6-27B-FP8 \\ --host 0.0.0.0 --port 8080 \\ --performance-mode interactivity \\ --trust-remote-code \\ --enable-auto-tool-choice \\ --tool-call-parser qwen3_coder \\ --reasoning-parser qwen3 \\ --mm-encoder-tp-mode data \\ --mm-processor-cache-type shm \\ --gpu-memory-utilization 0.975 \\ --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \\ --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' \\ --async-scheduling \\ --attention-backend flashinfer \\ --max-model-len 196608 \\ --kv-cache-dtype bfloat16 \\ --enable-prefix-caching 

性能

私は今まさに実ベンチマークを回していて、この投稿は後で更新しますが、一般的には:MTP=2でコードを書くと、60〜90 TPSが出ます。これは、日常用途としてはまったく問題ない数値だと私は思っています。さらに、FP8を使いKVが量子化されていないので、早期のコンパクション、際限ないループなどなしで、長いClaudeセッションの恩恵を得られます。実質的に最小限の量子化です。

----END HUMAN TEXT----

もしAIが生成したテキストがある場合は、ここに続きます。

----START AI TEXT----

----END AI TEXT----

submitted by /u/__JockY__
[link] [comments]