AI Navigate

Qwen3.5 35B-A3BをRTX 5090 32GBで実行 - KVキャッシュの量子化か、それとも並列リクエストに合わせるためのウェイト低精度量子化か?

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • RTX 5090(32GB VRAM)をセットアップに使用し、Qwen3.5 35Bモデルは約27GB、エンベディング約0.955GB、32768トークンのコンテキスト、そして2件の並列リクエストを組み合わせると、VRAMがほぼ満杯となり、2番目のユーザーがハングする。
  • オプションAはKVキャッシュの量子化を提案する。Flash Attentionを有効にし、ウェイトをQ4_K_MのままKVキャッシュをQ8_0に設定することで、品質低下はほとんどなく、約2–3GBを節約できる。
  • オプションBはウェイトをQ3_K_Mへ低量子化することを提案し、3–4GBを節約できるが、技術的・構造化タスクで品質劣化が顕著になる可能性がある。
  • オプションCはコンテキストウィンドウを24kまたは16kトークンに減らすことを提案しており、これによりメモリが解放される一方、長文の処理には支障をきたす可能性がある。
  • 著者は実践的な推奨を求めており、KVキャッシュQ8_0でQwen3.5 35Bを運用した本番環境での経験がある人がいるかどうかを尋ねている。

この設定で、Open WebUI + Ollama 上で小規模企業向けの AI アシスタント(V&V/RAMS エンジニアリング)を運用しています:

  • GPU: RTX 5090 32GB VRAM
  • モデル: Qwen3.5:35b (Q4_K_M) ~27GB
  • 埋め込み: nomic-embed-text-v2-moe ~955MB
  • コンテキスト: 32,768 トークン
  • OLLAMA_NUM_PARALLEL: 2

このモデルは、Open WebUI を通じて同時に4〜5名のエンジニアが利用しています。
問題点: nvidia-smi は 31.4GB/32.6GB 使用中と表示され、1回のリクエストでほぼ満杯になります。 NUM_PARALLEL=2 の場合、同時に2名のユーザーがクエリを実行すると、2番目の処理は最初の処理が完了するまで待機します。 並列設定はされているものの、2つ目のコンテキストウィンドウ用のVRAMが残っていないため、実際には機能していません。

2〜3GBを解放する必要があります。 2つのオプションがあり、インターネット上では意見が分かれています:

オプション A → KV キャッシュ量子化: Flash Attention を有効化し、KV キャッシュを Q8_0 に設定します。 モデルのウェイトは Q4_K_M のまま。 コンテキストで約2〜3GBを節約でき、品質の低下はごくわずか(ベンチマークによるとパープレキシティの増加は約0.004)。

オプション B → 重みの量子化を低減: Q4_K_M から Q3_K_M へダウン。 モデルサイズで約3〜4GBを節約するが、技術的/構造化タスクでは品質低下が顕著と報告する人もいる。

オプション C → コンテキストウィンドウを削減: 32k から 24k または 16k に。 その他はすべて維持するが、長文の文書では特に非常にタイトになる。

参考情報: このモデルは文書分析、計算、規範的な検索、コード生成を扱います。 技術データの正確さは非常に重要です。

あなたならどうしますか? KV キャッシュ Q8_0 を用いた Qwen3.5 35B を実運用で動かした人はいますか?

投稿者 /u/DjsantiX
[リンク] [コメント]