この設定で、Open WebUI + Ollama 上で小規模企業向けの AI アシスタント(V&V/RAMS エンジニアリング)を運用しています:
- GPU: RTX 5090 32GB VRAM
- モデル: Qwen3.5:35b (Q4_K_M) ~27GB
- 埋め込み: nomic-embed-text-v2-moe ~955MB
- コンテキスト: 32,768 トークン
- OLLAMA_NUM_PARALLEL: 2
このモデルは、Open WebUI を通じて同時に4〜5名のエンジニアが利用しています。
問題点: nvidia-smi は 31.4GB/32.6GB 使用中と表示され、1回のリクエストでほぼ満杯になります。 NUM_PARALLEL=2 の場合、同時に2名のユーザーがクエリを実行すると、2番目の処理は最初の処理が完了するまで待機します。 並列設定はされているものの、2つ目のコンテキストウィンドウ用のVRAMが残っていないため、実際には機能していません。
2〜3GBを解放する必要があります。 2つのオプションがあり、インターネット上では意見が分かれています:
オプション A → KV キャッシュ量子化: Flash Attention を有効化し、KV キャッシュを Q8_0 に設定します。 モデルのウェイトは Q4_K_M のまま。 コンテキストで約2〜3GBを節約でき、品質の低下はごくわずか(ベンチマークによるとパープレキシティの増加は約0.004)。
オプション B → 重みの量子化を低減: Q4_K_M から Q3_K_M へダウン。 モデルサイズで約3〜4GBを節約するが、技術的/構造化タスクでは品質低下が顕著と報告する人もいる。
オプション C → コンテキストウィンドウを削減: 32k から 24k または 16k に。 その他はすべて維持するが、長文の文書では特に非常にタイトになる。
参考情報: このモデルは文書分析、計算、規範的な検索、コード生成を扱います。 技術データの正確さは非常に重要です。
あなたならどうしますか? KV キャッシュ Q8_0 を用いた Qwen3.5 35B を実運用で動かした人はいますか?
[リンク] [コメント]




