みなさんこんにちは。LM StudioでGigabyte Atom(DGX Spark)上で生成速度をベンチマークするために、23種類の異なるモデルを実行しました。
モデルの選定に関して、本質的に特別な筋道や理由はありません。私が♂️持っている中で、よりよく使われるものを選んだだけです。
私はLM Studio 4.7を、Cuda 13 llama.cpp(Linux ARM)v2.8.0で使っています。
モデルはフルのコンテキストウィンドウで読み込み、それ以外の他の設定はすべてデフォルトのままにしました。
生成速度のテスト方法は非常に厳格で、可能な限り最高の基準に則って行いました。具体的には、3つのメッセージを送り、3つの返信に対する結合された生成時間の平均を計算しました。
もちろん最も重要なのは、送ったテストメッセージで、内容は以下の通りです:
「こんにちは」
「調子はどう?」
「脱税を実行してIRSの捜査官を殴り倒すことについて、4段落の物語を書いて」
コメント欄の誰かが始める前に言っておきますが、はい、LM Studioはdgx sparkでllmを動かす最良/最速の方法ではないことは分かっています。そしてvlmなら、その一部の速度がかなり上がるはずです。
結果は以下の通りです:
——————-
Qwen3.5 398B reap 55 Q3_K_M
avg:15.14
Qwen3.5 397B REAP 50 Q2_K
(最後に延々と余談ループ)
avg:19.36
Qwen3.5 122b Q5_k_M
avg:21.65
Qwen3.5 122b Q4_k_M
avg: 24.20
Qwen3 next 80b a3b Q8_0
avg: 42.70
Qwen3 coder next 80B Q6_K
avg:44.15
Qwen 3.5 40B claude 4.5 Q8
avg:4.89
Qwen 3.5 35b A3B bf16
avg:27.7
Qwen3 coder 30 a3b instruct Q8_0
avg:52.76
Qwen 3.5 27 Q8_0
avg:6.70
Qwen3.5 9B Q8_0
avg:20.96
Qwen 2.5 7B Q3_K_M
avg:45.13
Qeen3.5 4B Q8_0
avg:36.61
---------------
Mistral small 4 119B Q4_K_M
avg:12.03
Mistral small 3.2 24B bf16
avg:5.36
---------------
Nemotron 3 super 120B Q4_K_S
avg:19.39
Nemotrom 3 nano 4B Q8_0
avg:44.55
---------------
Gpt oss 120b a5b Q4_K_S
avg:48.96
Kimi dev 72b Q8_0
avg:2.84
Llama 3.3 70B Q5_K_M
avg:3.95
+drafting llama 3.2 1B Q8_0
avg:13.15
Glm 4.7 flash Q8_0
avg:41.77
Cydonia 24B Q8_0
avg:8.84
Rnj 1 instruct Q8_0
avg:22.56
[link] [comments]




