M5 32GB のLM Studioで通信速度を再確認する

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

M5搭載のMacBook Pro（32GB）でLM Studioを使用しているユーザーが、生成速度が体感的に遅いと報告し、複数のローカルLLMについて測定したトークン毎秒（t/s）の結果を共有しています。
報告された結果は、Gemma3 27B 4-bit（MLX）で約8 t/s、Nemotron 3 Nano 4B（GGUF）で32 t/s、GPT OSS 20B（MLX）で39 t/sです。
ユーザーはデフォルトのコンテキスト設定および実行／コンポーネントのバージョン（Metal上のMLX v1.4.0、Llama v2.8.0）を明記し、同等のハードウェアで比較可能な速度が出ているかを他者に確認しています。
ユーザーは、再現して性能を検証できるようにするため、コミュニティのメンバーに対して、他のLM Studioのモデル構成（フォーマット、パラメータサイズ、ビット幅）も共有するよう呼びかけています。
このスレッドの本質は、新製品のリリースや技術ガイドというより、トラブルシューティング／性能比較の依頼です。

私はM5 MBP（32GB、Mac OS 26.4）を使っており、LM Studioを使用していますが、速度が低いのではないかと思っています：

8 t/s Gemma3 27B 4Bit MLX

32 t/s Nemotron 3 Nano 4B GGUF

39 t/s GPT OSS 20B MLX

すべてのモデルはデフォルトのコンテキスト設定で読み込み、次のランタイムバージョンを使用しました：

MLX v1.4.0 M5 Metal

Llama v2.8.0

似た構成で、同じくらいの速度が出た人がいるか教えてもらえますか？ProではなくMB Airでも構いません。

また、LM Studioで使った他のモデル（GGUF/MLX）のビットサイズ、ビリオンサイズを教えてもらえれば、これを再現して同様のT/sが出るかどうかを確認できます。