V100 32 GB：CPUオフロードと電力制限のもとで20モデルを対象に6時間のベンチマーク

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

空冷式のNVIDIA V100 32GB上で、ローカルLLMベンチマークを6時間実施し、電力制限（300W〜150W）、CPU/GPUオフロードのレベル、最大32Kのコンテキストウィンドウのもとで、20種類のモデル（密なモデルとMoE）を比較した。
結果は、生成に関しては電力制限が概ね「無料」で、約200Wまでは性能低下が小さいことを示している。tg128での性能低下は約2%未満だった。一方で150Wでは、密なモデルがそのワークロードで大きく劣化し（約−22%）、顕著な低下が見られた。
MoE/ハイブリッド構成は、密なモデルに比べてCPUオフロードに対する耐性が高い。多くのMoEバリアントは、オフロード比率を高めても（例：ngl 50）ほぼフルのスループットを維持するのに対し、密なモデルは大きく低下した。
アーキテクチャの選択は、単純なパラメータ数以上に重要になり得る。テスト条件下では、Nemotron-30BのMamba2構成が、より密なQwen3.5-40Bよりも約7倍高いトークン/秒を達成した。
ハードウェア制約が主要因である。例えば、このプラットフォームではPCIe Gen3帯域のボトルネックにより、密な70Bのオフロードはほぼ現実的ではない。一方で、VRAMに収まるMoE構成は、状況次第で劇的に高速になり得る。

V100 32 Gb : CPUオフロード＆電力制限ありで20モデルを6時間ベンチマーク

数日前に、こちらの自分のセットアップについて投稿しました： https://www.reddit.com/r/LocalLLaMA/comments/1s0fje7/nvidiav10032gbgetting115tsonqwencoder/

- Ryzen 7600 X & 32 Gb DDR5

- Nvidia V100 32 GB PCIExp（空冷）

私は、Nemotron…QwenからDeepseek 70Bまで、20モデル（MOE & dense）で6時間のベンチマークを、以下の異なる設定で実行しています：

- 電力制限（300w、250w、200w、150w）

- CPUオフロード（100% GPU、75% GPU、50% GPU、25% GPU、0% GPU）

- 異なるコンテキストウィンドウ（最大32K）

TLDR：

- 電力制限は生成に対しては無料です。

200Wで動かすと、tg128で<2%の損失のまま100W節約できます。MoE/ハイブリッドモデルは帯域制約型です。劣化が見えるのはdenseのプロンプト処理だけで、150Wでは（−22%）。推奨の毎日使い：200W。

- MoEモデルは、オフロードをdenseよりずっと上手く扱います。

ほとんどのMoEモデルは、ngl 50でtg128を100%維持します—オフロードされた層により休眠しているエキスパートが保持されます。denseモデルはすぐに71–83%失います。gpt-ossはオフロードのチャンピオンで、ngl 30までフルスピードです。

- アーキテクチャはパラメータ数より重要です。

Nemotron-30B Mamba2（152 t/s）は、dense Qwen3.5-40B（21 t/s）に勝ちます—より少ないパラメータ数とより少ないVRAMで7倍の速度優位です。

- V100の最低電力は150Wです。

100Wは却下されました。SXM2の範囲は150–300Wです。150Wでは、MoEモデルはなお90–97%の性能を出します。

- dense 70Bのオフロードは現実的ではありません。

ピークは3.8 t/s。PCIe Gen 3の帯域がボトルネックです。VRAM内の80B MoE（78 t/s）は20×高速です。

- V100-32GBのベストな日常ドライバー：

速度：Nemotron-30B Q3_K_M — 152 t/s、Mamba2ハイブリッド

コード：Qwen3-Coder-30B Q4_K_M — 127 t/s、MoE

オールラウンド：Qwen3.5-35B-A3B Q4_K_M — 102 t/s、MoE

頭の良さ：Qwen3-Next-80B IQ1_M — 78 t/s、80B GatedDeltaNet

submitted by /u/icepatfork
[link] [comments]

Black Hat Asia

AI Business

AIの知能の爆発で、人間の薬剤師はどうなる？

note

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

note

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

note

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

note

V100 32 GB：CPUオフロードと電力制限のもとで20モデルを対象に6時間のベンチマーク

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む 都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査