私はM5 MBP(32GB、Mac OS 26.4)を使っており、LM Studioを使用していますが、速度が低いのではないかと思っています:
8 t/s Gemma3 27B 4Bit MLX
32 t/s Nemotron 3 Nano 4B GGUF
39 t/s GPT OSS 20B MLX
すべてのモデルはデフォルトのコンテキスト設定で読み込み、次のランタイムバージョンを使用しました:
MLX v1.4.0 M5 Metal
Llama v2.8.0
似た構成で、同じくらいの速度が出た人がいるか教えてもらえますか?ProではなくMB Airでも構いません。
また、LM Studioで使った他のモデル(GGUF/MLX)のビットサイズ、ビリオンサイズを教えてもらえれば、これを再現して同様のT/sが出るかどうかを確認できます。
[link] [comments]




