| 数日前に、こちらの自分のセットアップについて投稿しました: https://www.reddit.com/r/LocalLLaMA/comments/1s0fje7/nvidiav10032gbgetting115tsonqwencoder/ - Ryzen 7600 X & 32 Gb DDR5 - Nvidia V100 32 GB PCIExp(空冷) 私は、Nemotron…QwenからDeepseek 70Bまで、20モデル(MOE & dense)で6時間のベンチマークを、以下の異なる設定で実行しています: - 電力制限(300w、250w、200w、150w) - CPUオフロード(100% GPU、75% GPU、50% GPU、25% GPU、0% GPU) - 異なるコンテキストウィンドウ(最大32K) TLDR: - 電力制限は生成に対しては無料です。 200Wで動かすと、tg128で<2%の損失のまま100W節約できます。MoE/ハイブリッドモデルは帯域制約型です。劣化が見えるのはdenseのプロンプト処理だけで、150Wでは(−22%)。推奨の毎日使い:200W。 - MoEモデルは、オフロードをdenseよりずっと上手く扱います。 ほとんどのMoEモデルは、ngl 50でtg128を100%維持します—オフロードされた層により休眠しているエキスパートが保持されます。denseモデルはすぐに71–83%失います。gpt-ossはオフロードのチャンピオンで、ngl 30までフルスピードです。 - アーキテクチャはパラメータ数より重要です。 Nemotron-30B Mamba2(152 t/s)は、dense Qwen3.5-40B(21 t/s)に勝ちます—より少ないパラメータ数とより少ないVRAMで7倍の速度優位です。 - V100の最低電力は150Wです。 100Wは却下されました。SXM2の範囲は150–300Wです。150Wでは、MoEモデルはなお90–97%の性能を出します。 - dense 70Bのオフロードは現実的ではありません。 ピークは3.8 t/s。PCIe Gen 3の帯域がボトルネックです。VRAM内の80B MoE(78 t/s)は20×高速です。 - V100-32GBのベストな日常ドライバー: 速度:Nemotron-30B Q3_K_M — 152 t/s、Mamba2ハイブリッド コード:Qwen3-Coder-30B Q4_K_M — 127 t/s、MoE オールラウンド:Qwen3.5-35B-A3B Q4_K_M — 102 t/s、MoE 頭の良さ:Qwen3-Next-80B IQ1_M — 78 t/s、80B GatedDeltaNet [link] [comments] |
V100 32 GB:CPUオフロードと電力制限のもとで20モデルを対象に6時間のベンチマーク
Reddit r/LocalLLaMA / 2026/3/28
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 空冷式のNVIDIA V100 32GB上で、ローカルLLMベンチマークを6時間実施し、電力制限(300W〜150W)、CPU/GPUオフロードのレベル、最大32Kのコンテキストウィンドウのもとで、20種類のモデル(密なモデルとMoE)を比較した。
- 結果は、生成に関しては電力制限が概ね「無料」で、約200Wまでは性能低下が小さいことを示している。tg128での性能低下は約2%未満だった。一方で150Wでは、密なモデルがそのワークロードで大きく劣化し(約−22%)、顕著な低下が見られた。
- MoE/ハイブリッド構成は、密なモデルに比べてCPUオフロードに対する耐性が高い。多くのMoEバリアントは、オフロード比率を高めても(例:ngl 50)ほぼフルのスループットを維持するのに対し、密なモデルは大きく低下した。
- アーキテクチャの選択は、単純なパラメータ数以上に重要になり得る。テスト条件下では、Nemotron-30BのMamba2構成が、より密なQwen3.5-40Bよりも約7倍高いトークン/秒を達成した。
- ハードウェア制約が主要因である。例えば、このプラットフォームではPCIe Gen3帯域のボトルネックにより、密な70Bのオフロードはほぼ現実的ではない。一方で、VRAMに収まるMoE構成は、状況次第で劇的に高速になり得る。




