みなさん、こんにちは。ローカルでビルドして、新しいGemma 4の大規模バリアント、具体的には31B Denseと26B MoEのモデルを動かそうと考えています。
24GBのVRAMと高いメモリ帯域幅があるので、使った中古のRTX 3090を1台買おうと思っていますが、お金をかける前に、これらのモデルを実際にうまく処理できるかどうかを確認したいです。
31B Denseモデルは、4-bitに量子化すると約16GBのVRAMが必要なのは分かっています。するとコンテキストキャッシュ用に多少の余裕はありますが、コンテキストウィンドウをあまり長くしようとすると24GBの上限にぶつかってしまわないか心配です。
すでに、単一の3090でGemma 4 31Bまたは26B MoEを動かしている方に質問です。性能はどうですか?トークン生成速度は、なかなか良い(それなりの)毎秒トークン数が出ていますか?また、その256Kのコンテキストウィンドウのうち、メモリ不足エラーを出さずに実際の運用でどれくらいまで使えていますか?
どんな助言やベンチマークの経験でも、大歓迎です!
[link] [comments]




