以前は、Mambaレイヤーが原因で「Not Implemented(未実装)」エラーを投げていました。今からテストします!
https://github.com/vllm-project/vllm/pull/39931
追記:Qwen 3.6 では動作します。27Bでテストしました
引数として使用できます;
--kv-cache-dtype turboquant_4bit_nc その他の利用可能なオプション;
- turboquant_k8v4
- turboquant_4bit_nc
- turboquant_k3v4_nc
- turboquant_3bit_nc
--enable-chunked-prefill を付けて実行すると、mamba align について文句を言われます。エラーが示す値よりも、より多くのバッチ化トークンを用意する必要があります。修正のために 4096 を使いました。--max-num-batched-tokens 4096
[link] [comments]




