Qwen3.5 35B-A3BをRTX 5090 32GBで実行 - KVキャッシュの量子化か、それとも並列リクエストに合わせるためのウェイト低精度量子化か？

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

RTX 5090（32GB VRAM）をセットアップに使用し、Qwen3.5 35Bモデルは約27GB、エンベディング約0.955GB、32768トークンのコンテキスト、そして2件の並列リクエストを組み合わせると、VRAMがほぼ満杯となり、2番目のユーザーがハングする。
オプションAはKVキャッシュの量子化を提案する。Flash Attentionを有効にし、ウェイトをQ4_K_MのままKVキャッシュをQ8_0に設定することで、品質低下はほとんどなく、約2–3GBを節約できる。
オプションBはウェイトをQ3_K_Mへ低量子化することを提案し、3–4GBを節約できるが、技術的・構造化タスクで品質劣化が顕著になる可能性がある。
オプションCはコンテキストウィンドウを24kまたは16kトークンに減らすことを提案しており、これによりメモリが解放される一方、長文の処理には支障をきたす可能性がある。
著者は実践的な推奨を求めており、KVキャッシュQ8_0でQwen3.5 35Bを運用した本番環境での経験がある人がいるかどうかを尋ねている。

この設定で、Open WebUI + Ollama 上で小規模企業向けの AI アシスタント（V&V/RAMS エンジニアリング）を運用しています：

GPU: RTX 5090 32GB VRAM
モデル: Qwen3.5:35b (Q4_K_M) ~27GB
埋め込み: nomic-embed-text-v2-moe ~955MB
コンテキスト: 32,768 トークン
OLLAMA_NUM_PARALLEL: 2

このモデルは、Open WebUI を通じて同時に4〜5名のエンジニアが利用しています。
問題点： nvidia-smi は 31.4GB/32.6GB 使用中と表示され、1回のリクエストでほぼ満杯になります。 NUM_PARALLEL=2 の場合、同時に2名のユーザーがクエリを実行すると、2番目の処理は最初の処理が完了するまで待機します。並列設定はされているものの、2つ目のコンテキストウィンドウ用のVRAMが残っていないため、実際には機能していません。

2〜3GBを解放する必要があります。 2つのオプションがあり、インターネット上では意見が分かれています：

オプション A → KV キャッシュ量子化: Flash Attention を有効化し、KV キャッシュを Q8_0 に設定します。モデルのウェイトは Q4_K_M のまま。コンテキストで約2〜3GBを節約でき、品質の低下はごくわずか（ベンチマークによるとパープレキシティの増加は約0.004）。

オプション B → 重みの量子化を低減: Q4_K_M から Q3_K_M へダウン。モデルサイズで約3〜4GBを節約するが、技術的/構造化タスクでは品質低下が顕著と報告する人もいる。

オプション C → コンテキストウィンドウを削減: 32k から 24k または 16k に。その他はすべて維持するが、長文の文書では特に非常にタイトになる。

参考情報: このモデルは文書分析、計算、規範的な検索、コード生成を扱います。技術データの正確さは非常に重要です。

あなたならどうしますか？ KV キャッシュ Q8_0 を用いた Qwen3.5 35B を実運用で動かした人はいますか？

投稿者 /u/DjsantiX
[リンク] [コメント]

AIにイラスト作成を依頼するのは意外と難しい

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

note

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

Qwen3.5 35B-A3BをRTX 5090 32GBで実行 - KVキャッシュの量子化か、それとも並列リクエストに合わせるためのウェイト低精度量子化か？

要点

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。 〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜