| 3x3090でローカル実行しているMistral Medium Q3の実際の速度はこちら まずは少しPython 次にsvg 次にhtml [リンク] [コメント] |
3x3090(72GB VRAM)でMistral-Medium-3.5-128B-Q3_K_Mを動かした速度
Reddit r/LocalLLaMA / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この投稿は、Q3量子化した「Mistral Medium 3.5 128B」を、NVIDIA 3090を3枚(合計72GB VRAM)使うローカル環境で推論した際の速度を示しています。
- パフォーマンスのスクリーンショットや、複数形式での出力レンダリングが含まれており、ベンチマークを実行して応答性を確認したことがうかがえます。
- 3x3090構成は、量子化(Q3)とマルチGPU分散により、より大きなLLMをローカルで動かすための実用的な方針を表しています。
- 全体として、新しいモデルの発表ではなく、実際のスループット/レイテンシ挙動に焦点を当てた内容です。




