ローカルでGemma 4を構築する計画:単体のRTX 3090で十分?

Reddit r/LocalLLaMA / 2026/4/10

💬 オピニオンTools & Practical UsageModels & Research

要点

  • Redditのユーザーが、Gemma 4の大規模バリアントをローカルで動かすための環境構築を計画しており、31B Dense(31B Dense)と26B MoEモデルに注目している。
  • 中古の単体RTX 3090(24GB VRAM)を検討しており、実用的な推論のために必要なメモリの余裕が足りるかを確認したい。
  • ユーザーは、31B Denseモデルは4ビット量子化で約16GBのVRAMが必要だと報告されている点を挙げるが、コンテキストウィンドウを広げるにつれてVRAMが足りなくなるのではないかと懸念している。
  • 31Bまたは26B MoEを単体の3090で動かしている人の実体験やベンチマークを求めている。具体的には、生成速度(tokens-per-second)や、メモリ不足(out-of-memory)エラーを起こさずに、宣伝されている256Kコンテキストのどれくらいが実際に利用可能かを知りたいとしている。

みなさん、こんにちは。ローカルでビルドして、新しいGemma 4の大規模バリアント、具体的には31B Denseと26B MoEのモデルを動かそうと考えています。

24GBのVRAMと高いメモリ帯域幅があるので、使った中古のRTX 3090を1台買おうと思っていますが、お金をかける前に、これらのモデルを実際にうまく処理できるかどうかを確認したいです。

31B Denseモデルは、4-bitに量子化すると約16GBのVRAMが必要なのは分かっています。するとコンテキストキャッシュ用に多少の余裕はありますが、コンテキストウィンドウをあまり長くしようとすると24GBの上限にぶつかってしまわないか心配です。

すでに、単一の3090でGemma 4 31Bまたは26B MoEを動かしている方に質問です。性能はどうですか?トークン生成速度は、なかなか良い(それなりの)毎秒トークン数が出ていますか?また、その256Kのコンテキストウィンドウのうち、メモリ不足エラーを出さずに実際の運用でどれくらいまで使えていますか?

どんな助言やベンチマークの経験でも、大歓迎です!

投稿者 /u/LopsidedMango1
[link] [comments]