vLLMがQwen 3.5+向けTurboQuantの修正をマージ

Reddit r/LocalLLaMA / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • vLLMは、Mamba層に起因する「Not Implemented」エラーを、Qwen 3.5+で発生していた問題として解消する目的で「TurboQuant」の修正をマージしました。
  • 初期テストでは、Qwen 3.6でも動作することが確認されており(27Bモデルでテスト)、期待通りの改善が示されています。
  • 利用者は `--kv-cache-dtype turboquant_4bit_nc` を指定することで有効化でき、TurboQuantのKVキャッシュ用データ型には他にも複数の選択肢があります。
  • `--enable-chunked-prefill` を併用する場合のmambaアラインメント関連の不具合は、バッチトークン数を増やすことで対処でき(例:`--max-num-batched-tokens 4096`)、安定運用に役立ちます。

以前は、Mambaレイヤーが原因で「Not Implemented(未実装)」エラーを投げていました。今からテストします!

https://github.com/vllm-project/vllm/pull/39931

追記:Qwen 3.6 では動作します。27Bでテストしました
引数として使用できます;

--kv-cache-dtype turboquant_4bit_nc 

その他の利用可能なオプション;

  • turboquant_k8v4
  • turboquant_4bit_nc
  • turboquant_k3v4_nc
  • turboquant_3bit_nc

--enable-chunked-prefill を付けて実行すると、mamba align について文句を言われます。エラーが示す値よりも、より多くのバッチ化トークンを用意する必要があります。修正のために 4096 を使いました。--max-num-batched-tokens 4096

投稿者 /u/havenoammo
[link] [comments]