----START HUMAN TEXT----
みなさん、こんにちは。
27Bを24GBカードに載せることや、それに関わる量子化のあれこれについて、いくつもの投稿を見かけました。どれも素晴らしい仕事ですが、結局のところ、KVが量子化された量子化モデルは、量子化されていないものよりも誤差をより速く積み増してしまい、エージェントによるコーディングに明確に影響します。
私は、48GBのGPUなら十分にVRAMがあり、Blackwell加速されたFP8のような、本当に良い選択肢で、ほとんどの量子化の厄介さを避けられると考えました。幸運にも、Qwenが27Bモデルの独自FP8バリアントをリリースしてくれました。
本気で言うと:あの「10kドルで何を買えばいい?」系の投稿に対する答えが、全部あるかもしれないと思っています。pro5k、64GBのRAM、まともなCPU/マザーボード。そしてBlackwellのハードウェアアクセラレーションと、量子化されていないKVのようなものを使って、27BのFP8量子化版を“バッチリ”動かせます。静かで、冷却も十分で、サイズも小さく、速い……本当に素晴らしいです。
完成レシピ:
- vLLM 0.20.1
- CUDA 12.9
- QwenのQwen3.6 27Bの公式FP8量子化。これは、マルチモダリティ、MTPなど、Qwen3.6の機能がすべて入っています。
- 200kトークンでのBF16 KVキャッシュ @ 1.09x concurrency
- 実ベンチマークの数値は追って公開します――いま実行中です。
これらの設定:
export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True vllm serve Qwen/Qwen3.6-27B-FP8 \\ --host 0.0.0.0 --port 8080 \\ --performance-mode interactivity \\ --trust-remote-code \\ --enable-auto-tool-choice \\ --tool-call-parser qwen3_coder \\ --reasoning-parser qwen3 \\ --mm-encoder-tp-mode data \\ --mm-processor-cache-type shm \\ --gpu-memory-utilization 0.975 \\ --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \\ --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' \\ --async-scheduling \\ --attention-backend flashinfer \\ --max-model-len 196608 \\ --kv-cache-dtype bfloat16 \\ --enable-prefix-caching 性能
私は今まさに実ベンチマークを回していて、この投稿は後で更新しますが、一般的には:MTP=2でコードを書くと、60〜90 TPSが出ます。これは、日常用途としてはまったく問題ない数値だと私は思っています。さらに、FP8を使いKVが量子化されていないので、早期のコンパクション、際限ないループなどなしで、長いClaudeセッションの恩恵を得られます。実質的に最小限の量子化です。
----END HUMAN TEXT----
もしAIが生成したテキストがある場合は、ここに続きます。
----START AI TEXT----
----END AI TEXT----
[link] [comments]




