Gemma 4 MoEがデュアル3090で120 TPSを達成!

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditの投稿で、Mixture-of-Experts(MoE)構成におけるGemma 4のベンチマーク結果が報告されており、デュアルのNVIDIA RTX 3090 GPUを使用しておよそ120トークン毎秒(tokens per second)を達成したと主張している。

ローカル環境でのベンチマーク数値をいくつか共有しようと思いました。

ハードウェア:デュアル NVIDIA RTX 3090 モデル:Gemma 4(MoEアーキテクチャ)性能:約120トークン毎秒

このMoE実装の効率は信じられないレベルです。重い負荷がかかっていても、生産性(スループット)は驚くほど一貫しています。高頻度のタスクや、複雑なエージェント的ワークフローのためにローカルLLMを動かしている人にとって、これは大きなアップグレードです。

この速度により、ほぼ瞬時の推論が可能になります。これは、古い密な(dense)モデルと比べて完全にパラダイムシフトです。VRAMに余裕があるなら、間違いなくこれが進むべき道です。

提出者 /u/AaZzEL
[リンク] [コメント]