広告

低価格帯理論!< $250推論バトル

Reddit r/LocalLLaMA / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この記事では、複数の低コストGPU(いずれも1枚あたり約$250未満)を、同一設定(llama-benchで-ngl 99)でllama.cppを用いて比較し、推論スループット(tokens/sec)を測定する。
  • Qwen3-VL-4B-Instruct-Q4_K_Mでは、挙げられたカードの中でRTX 3060(12GB)とCMP100-210(16GB)が総合的に上位となり、Tesla P4(8GB)は大幅に遅い。
  • Mistral-7B-Instruct-v0.3-Q4_K_Mでは、CMP100-210(16GB)が最も高いtokens/secを示し、RTX 3060もTesla P4やTesla P40に比べて良好な性能を発揮する。
  • gemma-3-12B-itおよびQwen2.5-Coder-14Bでは、Tesla P4が試験した構成でロードできないことが多く、観測された最大スループットはCMP100-210(16GB)から得られる。これは、低価格帯であってもメモリや互換性の制約があることを示唆している。
  • 全体として、$250未満の推論予算の範囲では、GPU選定は単なる価格の安さよりも、有効なVRAM容量と、量子化モデルを確実にロードできるかどうかによって支配されることが示されている。

ローエンド理論:< $250 の推論GPU対決

カード構成とコスト

合計$250で3枚のTesla P4カードを購入し、各カード種別のうち1枚ずつと比較しました。

コスト表

カード eBay価格(USD) $/GB
Tesla P4(8GB) 81 10.13
CMP170HX(10GB) 195 19.5
RTX 3060(12GB) 160 13.33
CMP100‑210(16GB) 125 7.81
Tesla P40(24GB) 225 9.375

推論テスト(llama.cpp)

すべてのテストは次の設定で実行:
llama-bench -m <MODEL> -ngl 99


Qwen3‑VL‑4B‑Instruct‑Q4_K_M.gguf(2.3GB)

カード Tokens/sec
Tesla P4(8GB) 35.32
CMP170HX(10GB) 51.66
RTX 3060(12GB) 76.12
CMP100‑210(16GB) 81.35
Tesla P40(24GB) 53.39

Mistral‑7B‑Instruct‑v0.3‑Q4_K_M.gguf(4.1GB)

カード Tokens/sec
Tesla P4(8GB) 25.73
CMP170HX(10GB) 33.62
RTX 3060(12GB) 65.29
CMP100‑210(16GB) 91.44
Tesla P40(24GB) 42.46

gemma‑3‑12B‑it‑Q4_K_M.gguf(6.8GB)

カード Tokens/sec
Tesla P4(8GB) 読み込めません
2× Tesla P4(16GB) 13.95
CMP170HX(10GB) 18.96
RTX 3060(12GB) 32.97
CMP100‑210(16GB) 43.84
Tesla P40(24GB) 21.90

Qwen2.5‑Coder‑14B‑Instruct‑Q4_K_M.gguf(8.4GB)

カード Tokens/sec
Tesla P4(8GB) 読み込めません
2× Tesla P4(16GB) 12.65
CMP170HX(10GB) 17.31
RTX 3060(12GB) 31.90
CMP100‑210(16GB) 45.44
Tesla P40(24GB) 20.33

openai_gpt‑oss‑20b‑MXFP4.gguf(11.3GB)

カード Tokens/sec
Tesla P4(8GB) 読み込めません
2× Tesla P4(16GB) 34.82
CMP170HX(10GB) 読み込めません
RTX 3060(12GB) 77.18
CMP100‑210(16GB) 77.09
Tesla P40(24GB) 50.41

Codestral‑22B‑v0.1‑Q5_K_M.gguf(14.6GB)

カード Tokens/sec
Tesla P4(8GB) 読み込めません
2× Tesla P4(16GB) 読み込めません
3× Tesla P4(24GB) 7.58
CMP170HX(10GB) 読み込めません
RTX 3060(12GB) 読み込めません
CMP100‑210(16GB) 読み込めません
Tesla P40(24GB) 12.09
submitted by /u/m94301
[リンク] [コメント]

広告