みなさん、
新しい密(dense)モデルを動かすためのGPU選定について、実世界のアドバイスを探しています。主にQwen 3.5 27BとGemma 4 31Bです。
狙っているもの
- コンテキスト:64K+(理想は、のちにさらに増やす)
- 速度:tg128以上で30+ tok/s
- 電力:重要ではありませんが、低いほどプラス
見てきた限りでは、これらの密モデルはMoEよりもはるかに要求が高いです。
なぜMoEではないのか?
私はすでにMoEをP40sで問題なく動かせています:
- Gemma 4 26B MoE
- ~32K ctx
- ~42+ tok/s @ tg128
だから今度は、品質/推論を良くするために密モデルに移りたいんです。
予算
- 約2500 AUD(約1800 USD)
- GPUのみ(CPU/RAM/基板はすでにあります)
- 当面はPCIeレーン制限を無視
検討中の選択肢
A. 2× 9070 XT(16GB)
B. 1× R9 9700(32GB)
C. 2× 7900 XTX(24GB)
D. 1× RTX Pro 4000(24GB)
N. 1× Intel Arc Pro B70(32GB、もしかすると将来の選択肢ですが今は違います)
現時点での理解(間違っていたら直してください)
- 16GBカード → 基本的にパイプライン並列に追い込まれるので、GPUごとの計算性能がとても重要
- 2× 7900 XTX は、生のスループットで最も有利なはず
- RTX Pro 4000 は同程度のクラスかもしれませんが、VRAMの制約でコンテキストの柔軟性が下がる
- 32GB単体(R9 9700) はKVキャッシュ/長いコンテキストの面で魅力的です。でも:
- 性能 ≈ 9070 XT?
- 価格 = 9070 XTを約2台分 + 追加のGPU…
- 2× 9070 XT が、「予算並列」枠では最良の可能性
懸念(ここで見たことをもとに)
- KVキャッシュがGemma 4 31Bだと厳しい「巨大なKVキャッシュ…最大の欠点」
- 大きなVRAMを持っている人でも、高い量子化(quant)やコンテキストでは苦戦する
- 24GBは、31Bの密モデルでの実用最小ラインっぽい
- 長いコンテキストへのスケーリングは、依然としてハードウェア依存度が高い
- マルチGPUのスケーリング(特にPCIe)は、バックエンド次第でかなり不安定に見える
知りたいこと
もし実際にQwen3.5 27B/Gemma 4 31B(密)を回したことがあるなら:
- どのGPUを使っていますか?
- どれくらいの実トークン/sが出ていますか(特に64K+で)
- マルチGPUは本当にうまくスケールしますか?それとも紙の上では良さそうに見えるだけですか?
- 32GBの単体GPU > デュアル16/24GBは実際にそうなりますか?
- 後悔したこと/「これを買うな」的な助言はありますか?
ボーナス質問
もし今日約$1800あったら、あなたなら:
- マルチGPUのAMD(安い + 生の計算性能)にしますか?
- それとも高VRAMの単体カード(よりシンプル + より良いコンテキスト)にしますか?
実際のベンチマーク/構成でも何でも歓迎です
[link] [comments]




