3x3090(72GB VRAM)でMistral-Medium-3.5-128B-Q3_K_Mを動かした速度

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿は、Q3量子化した「Mistral Medium 3.5 128B」を、NVIDIA 3090を3枚(合計72GB VRAM)使うローカル環境で推論した際の速度を示しています。
  • パフォーマンスのスクリーンショットや、複数形式での出力レンダリングが含まれており、ベンチマークを実行して応答性を確認したことがうかがえます。
  • 3x3090構成は、量子化(Q3)とマルチGPU分散により、より大きなLLMをローカルで動かすための実用的な方針を表しています。
  • 全体として、新しいモデルの発表ではなく、実際のスループット/レイテンシ挙動に焦点を当てた内容です。

3x3090(72GB VRAM)でMistral-Medium-3.5-128B-Q3_K_Mを動かした速度 | AI Navigate