ローカル環境でのベンチマーク数値をいくつか共有しようと思いました。
ハードウェア:デュアル NVIDIA RTX 3090 モデル:Gemma 4(MoEアーキテクチャ)性能:約120トークン毎秒
このMoE実装の効率は信じられないレベルです。重い負荷がかかっていても、生産性(スループット)は驚くほど一貫しています。高頻度のタスクや、複雑なエージェント的ワークフローのためにローカルLLMを動かしている人にとって、これは大きなアップグレードです。
この速度により、ほぼ瞬時の推論が可能になります。これは、古い密な(dense)モデルと比べて完全にパラダイムシフトです。VRAMに余裕があるなら、間違いなくこれが進むべき道です。
[リンク] [コメント]



