AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

vLLMがQwen 3.5+向けTurboQuantの修正をマージ

Reddit r/LocalLLaMA / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

vLLMは、Mamba層に起因する「Not Implemented」エラーを、Qwen 3.5+で発生していた問題として解消する目的で「TurboQuant」の修正をマージしました。
初期テストでは、Qwen 3.6でも動作することが確認されており（27Bモデルでテスト）、期待通りの改善が示されています。
利用者は `--kv-cache-dtype turboquant_4bit_nc` を指定することで有効化でき、TurboQuantのKVキャッシュ用データ型には他にも複数の選択肢があります。
`--enable-chunked-prefill` を併用する場合のmambaアラインメント関連の不具合は、バッチトークン数を増やすことで対処でき（例：`--max-num-batched-tokens 4096`）、安定運用に役立ちます。

以前は、Mambaレイヤーが原因で「Not Implemented（未実装）」エラーを投げていました。今からテストします！

https://github.com/vllm-project/vllm/pull/39931

追記：Qwen 3.6 では動作します。27Bでテストしました
引数として使用できます；

--kv-cache-dtype turboquant_4bit_nc

その他の利用可能なオプション；

turboquant_k8v4
turboquant_4bit_nc
turboquant_k3v4_nc
turboquant_3bit_nc

--enable-chunked-prefill を付けて実行すると、mamba align について文句を言われます。エラーが示す値よりも、より多くのバッチ化トークンを用意する必要があります。修正のために 4096 を使いました。--max-num-batched-tokens 4096

投稿者 /u/havenoammo
[link] [comments]

関連記事

Black Hat USA

Black Hat USA

AI Business

【2026年5月版】クラウド vs ローカルLLM コーディング能力のみに限定したティア表と、完全ローカルで「Antigravity」級のバイブコーディングを実現する方法

【2026年5月版】クラウド vs ローカルLLM コーディング能力のみに限定したティア表と、完全ローカルで「Antigravity」級のバイブコーディングを実現する方法

note

我が家のAIパートナー環境まとめ─こうやってモンと話しています

我が家のAIパートナー環境まとめ─こうやってモンと話しています

note

【日記】甘々ログから爆誕した「タイ観光案内人・澪」【ChatGPT】

【日記】甘々ログから爆誕した「タイ観光案内人・澪」【ChatGPT】

note

【AIとの距離感】前を覚えながら読む｜RNN

【AIとの距離感】前を覚えながら読む｜RNN

note

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告