広告

V100 32 GB:CPUオフロードと電力制限のもとで20モデルを対象に6時間のベンチマーク

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 空冷式のNVIDIA V100 32GB上で、ローカルLLMベンチマークを6時間実施し、電力制限(300W〜150W)、CPU/GPUオフロードのレベル、最大32Kのコンテキストウィンドウのもとで、20種類のモデル(密なモデルとMoE)を比較した。
  • 結果は、生成に関しては電力制限が概ね「無料」で、約200Wまでは性能低下が小さいことを示している。tg128での性能低下は約2%未満だった。一方で150Wでは、密なモデルがそのワークロードで大きく劣化し(約−22%)、顕著な低下が見られた。
  • MoE/ハイブリッド構成は、密なモデルに比べてCPUオフロードに対する耐性が高い。多くのMoEバリアントは、オフロード比率を高めても(例:ngl 50)ほぼフルのスループットを維持するのに対し、密なモデルは大きく低下した。
  • アーキテクチャの選択は、単純なパラメータ数以上に重要になり得る。テスト条件下では、Nemotron-30BのMamba2構成が、より密なQwen3.5-40Bよりも約7倍高いトークン/秒を達成した。
  • ハードウェア制約が主要因である。例えば、このプラットフォームではPCIe Gen3帯域のボトルネックにより、密な70Bのオフロードはほぼ現実的ではない。一方で、VRAMに収まるMoE構成は、状況次第で劇的に高速になり得る。
V100 32 Gb : CPUオフロード&電力制限ありで20モデルを6時間ベンチマーク

数日前に、こちらの自分のセットアップについて投稿しました: https://www.reddit.com/r/LocalLLaMA/comments/1s0fje7/nvidiav10032gbgetting115tsonqwencoder/

- Ryzen 7600 X & 32 Gb DDR5

- Nvidia V100 32 GB PCIExp(空冷)

私は、Nemotron…QwenからDeepseek 70Bまで、20モデル(MOE & dense)で6時間のベンチマークを、以下の異なる設定で実行しています:

- 電力制限(300w、250w、200w、150w)

- CPUオフロード(100% GPU、75% GPU、50% GPU、25% GPU、0% GPU)

- 異なるコンテキストウィンドウ(最大32K)

TLDR:

- 電力制限は生成に対しては無料です。

200Wで動かすと、tg128で<2%の損失のまま100W節約できます。MoE/ハイブリッドモデルは帯域制約型です。劣化が見えるのはdenseのプロンプト処理だけで、150Wでは(−22%)。推奨の毎日使い:200W。

- MoEモデルは、オフロードをdenseよりずっと上手く扱います。

ほとんどのMoEモデルは、ngl 50でtg128を100%維持します—オフロードされた層により休眠しているエキスパートが保持されます。denseモデルはすぐに71–83%失います。gpt-ossはオフロードのチャンピオンで、ngl 30までフルスピードです。

- アーキテクチャはパラメータ数より重要です。

Nemotron-30B Mamba2(152 t/s)は、dense Qwen3.5-40B(21 t/s)に勝ちます—より少ないパラメータ数とより少ないVRAMで7倍の速度優位です。

- V100の最低電力は150Wです。

100Wは却下されました。SXM2の範囲は150–300Wです。150Wでは、MoEモデルはなお90–97%の性能を出します。

- dense 70Bのオフロードは現実的ではありません。

ピークは3.8 t/s。PCIe Gen 3の帯域がボトルネックです。VRAM内の80B MoE(78 t/s)は20×高速です。

- V100-32GBのベストな日常ドライバー:

速度:Nemotron-30B Q3_K_M — 152 t/s、Mamba2ハイブリッド

コード:Qwen3-Coder-30B Q4_K_M — 127 t/s、MoE

オールラウンド:Qwen3.5-35B-A3B Q4_K_M — 102 t/s、MoE

頭の良さ:Qwen3-Next-80B IQ1_M — 78 t/s、80B GatedDeltaNet

submitted by /u/icepatfork
[link] [comments]

広告