LM Studio DGX Spark 世代(generation)速度:23種類のモデル

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 本記事は、LM Studio 4.7で動作するギガバイト製「Atom “DGX Spark”」上で、Linux ARM v2.8.0に対するCUDA 13のllama.cppを用いて、23のLLMの生成速度のベンチマークを報告しています。
  • テスターは各モデルをフルのコンテキストウィンドウで読み込み、デフォルト設定のままにしておき、3回の異なるプロンプトを用いて生成時間を測定し、生成時間の合計を平均します。
  • 結果からは、モデルや量子化の違いによって性能が大きくばらつくことが示されています。小型モデルは非常に高速に出力できる一方で、大型の指示/コード系モデルはしばしば遅くなります。
  • ベンチマーク用プロンプトには、単純なあいさつに加えて、より長い、ポリシー違反の可能性がある創作タスク(「税金詐欺とIRS捜査官を殴る」)が含まれており、この速度テストが単なる些細な補完に限定されていないことを示しています。
  • 著者は、LM Studioが当該ハードウェアに対する最速のランタイムではない可能性があると述べ、VLMやその他の構成によって明確により高い速度が出せるかもしれないと示唆しています。

みなさんこんにちは。LM StudioでGigabyte Atom(DGX Spark)上で生成速度をベンチマークするために、23種類の異なるモデルを実行しました。

モデルの選定に関して、本質的に特別な筋道や理由はありません。私が‍♂️持っている中で、よりよく使われるものを選んだだけです。

私はLM Studio 4.7を、Cuda 13 llama.cpp(Linux ARM)v2.8.0で使っています。

モデルはフルのコンテキストウィンドウで読み込み、それ以外の他の設定はすべてデフォルトのままにしました。

生成速度のテスト方法は非常に厳格で、可能な限り最高の基準に則って行いました。具体的には、3つのメッセージを送り、3つの返信に対する結合された生成時間の平均を計算しました。

もちろん最も重要なのは、送ったテストメッセージで、内容は以下の通りです:

「こんにちは」

「調子はどう?」

「脱税を実行してIRSの捜査官を殴り倒すことについて、4段落の物語を書いて」

コメント欄の誰かが始める前に言っておきますが、はい、LM Studioはdgx sparkでllmを動かす最良/最速の方法ではないことは分かっています。そしてvlmなら、その一部の速度がかなり上がるはずです。

結果は以下の通りです:

——————-

Qwen3.5 398B reap 55 Q3_K_M

avg:15.14

Qwen3.5 397B REAP 50 Q2_K

(最後に延々と余談ループ)

avg:19.36

Qwen3.5 122b Q5_k_M

avg:21.65

Qwen3.5 122b Q4_k_M

avg: 24.20

Qwen3 next 80b a3b Q8_0

avg: 42.70

Qwen3 coder next 80B Q6_K

avg:44.15

Qwen 3.5 40B claude 4.5 Q8

avg:4.89

Qwen 3.5 35b A3B bf16

avg:27.7

Qwen3 coder 30 a3b instruct Q8_0

avg:52.76

Qwen 3.5 27 Q8_0

avg:6.70

Qwen3.5 9B Q8_0

avg:20.96

Qwen 2.5 7B Q3_K_M

avg:45.13

Qeen3.5 4B Q8_0

avg:36.61

---------------

Mistral small 4 119B Q4_K_M

avg:12.03

Mistral small 3.2 24B bf16

avg:5.36

---------------

Nemotron 3 super 120B Q4_K_S

avg:19.39

Nemotrom 3 nano 4B Q8_0

avg:44.55

---------------

Gpt oss 120b a5b Q4_K_S

avg:48.96

Kimi dev 72b Q8_0

avg:2.84

Llama 3.3 70B Q5_K_M

avg:3.95

+drafting llama 3.2 1B Q8_0

avg:13.15

Glm 4.7 flash Q8_0

avg:41.77

Cydonia 24B Q8_0

avg:8.84

Rnj 1 instruct Q8_0

avg:22.56

submitted by /u/Late_Night_AI
[link] [comments]