64K ctxと30+ t/sを狙うためのQwen 3.5 27B / Gemma 4 31B(dense)向けGPUアドバイス

Reddit r/LocalLLaMA / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この投稿は、Qwen 3.5 27BおよびGemma 4 31Bのようなdense 27B/31Bモデルを、64K+のコンテキストと少なくともtg128で約30 tok/s以上の速度で動かすための実用的なGPU推奨を求めている。
  • 著者はdenseとMoEの性能を対比し、現状ではP40でMoEモデルを快適に運用できている一方で、denseモデルは「はるかに要求が厳しい」と感じていると述べる。
  • GPU構成の候補として、デュアル16GB 9070 XT、シングル32GB R9 9700、デュアル24GB 7900 XTX、シングル24GB RTX Pro 4000、さらに任意でArc Pro B70を挙げ、VRAM、KVキャッシュ、多GPUスケーリングに関する制約を強調している。
  • 主な懸念は、Gemma 4 31Bにおける「過酷な」KVキャッシュ、長コンテキストでのスケーリングの不確実性、そしてソフトウェア/バックエンドによって多GPUの挙動が一貫しない点にある。
  • 投稿者は、64K+での実測ベンチマーク(tok/s)、32GBのシングルGPUが、VRAMが少ないデュアル構成よりも性能で勝るのかどうか、そして約1800 USDの予算の範囲で「買ってはいけない」機種についての助言を求めている。

みなさん、

新しい密(dense)モデルを動かすためのGPU選定について、実世界のアドバイスを探しています。主にQwen 3.5 27BGemma 4 31Bです。

狙っているもの

  • コンテキスト:64K+(理想は、のちにさらに増やす)
  • 速度:tg128以上で30+ tok/s
  • 電力:重要ではありませんが、低いほどプラス

見てきた限りでは、これらの密モデルはMoEよりもはるかに要求が高いです。

なぜMoEではないのか?

私はすでにMoEをP40sで問題なく動かせています:

  • Gemma 4 26B MoE
  • ~32K ctx
  • ~42+ tok/s @ tg128

だから今度は、品質/推論を良くするために密モデルに移りたいんです。

予算

  • 約2500 AUD(約1800 USD)
  • GPUのみ(CPU/RAM/基板はすでにあります)
  • 当面はPCIeレーン制限を無視

検討中の選択肢

A. 2× 9070 XT(16GB)
B. 1× R9 9700(32GB)
C. 2× 7900 XTX(24GB)
D. 1× RTX Pro 4000(24GB)

N. 1× Intel Arc Pro B70(32GB、もしかすると将来の選択肢ですが今は違います)

現時点での理解(間違っていたら直してください)

  • 16GBカード → 基本的にパイプライン並列に追い込まれるので、GPUごとの計算性能がとても重要
  • 2× 7900 XTX は、生のスループットで最も有利なはず
  • RTX Pro 4000 は同程度のクラスかもしれませんが、VRAMの制約でコンテキストの柔軟性が下がる
  • 32GB単体(R9 9700) はKVキャッシュ/長いコンテキストの面で魅力的です。でも:
    • 性能 ≈ 9070 XT?
    • 価格 = 9070 XTを約2台分 + 追加のGPU…
  • 2× 9070 XT が、「予算並列」枠では最良の可能性

懸念(ここで見たことをもとに)

  • KVキャッシュがGemma 4 31Bだと厳しい「巨大なKVキャッシュ…最大の欠点」
  • 大きなVRAMを持っている人でも、高い量子化(quant)やコンテキストでは苦戦する
  • 24GBは、31Bの密モデルでの実用最小ラインっぽい
  • 長いコンテキストへのスケーリングは、依然としてハードウェア依存度が高い
  • マルチGPUのスケーリング(特にPCIe)は、バックエンド次第でかなり不安定に見える

知りたいこと

もし実際にQwen3.5 27B/Gemma 4 31B(密)を回したことがあるなら:

  • どのGPUを使っていますか?
  • どれくらいの実トークン/sが出ていますか(特に64K+で)
  • マルチGPUは本当にうまくスケールしますか?それとも紙の上では良さそうに見えるだけですか?
  • 32GBの単体GPU > デュアル16/24GBは実際にそうなりますか?
  • 後悔したこと/「これを買うな」的な助言はありますか?

ボーナス質問

もし今日約$1800あったら、あなたなら:

  • マルチGPUのAMD(安い + 生の計算性能)にしますか?
  • それとも高VRAMの単体カード(よりシンプル + より良いコンテキスト)にしますか?

実際のベンチマーク/構成でも何でも歓迎です

submitted by /u/Fit-Courage5400
[link] [comments]