M3 Ultra + DGX Sparkで「M5 Ultra-lite」になれる？（llama.cppベンチ結果）

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

この投稿では、exoの「分散プリフィル（prefill）」としてDGX Sparkでプリフィルを行い、別マシンでデコードする構成を実機で検証し、llama.cppでM3 Ultra単体実行と比較しています。
結果としてSparkはモデルにより約1.4倍〜3.4倍のスループット向上を示しており（特に大きいモデルほど効果が大きい）、Sparkがマットムル中心の処理でM3 Ultraを上回る可能性を裏づけています。
投稿者はDGX Sparkがシンプル用途にはやや過剰になり得ると感じ、llama.cppのKVシリアライゼーションと、KVキャッシュを受け渡すためのラッパーを用いた、より目的に絞った構成へ切り替えています。
重要なチューニングとして、llama.cppのmmap=0設定を推奨しており、デフォルトのままだとモデル読み込み時間（数分〜数分ではなく数十秒程度まで）やプリフィル速度の低下につながると述べています。
総合するとシステムは「M5 Ultra-lite」相当の体感で、M5 MaxとM5 Ultraの中間のようだと結論づけつつ、改善案として200GbE経由でSparkをもう1台追加することや、バッチ性能向上のためにvLLMを試すことを提案しています。

最近、DGX Spark と M3 Ultra による分散プリフィル、つまり1台のマシンでプリフィルして別のマシンでデコードする、という記事を見かけました。DGX Spark は、M3 Ultra の 4 倍の matmul 性能があるそうです。これは M5 Ultra でも同等のはずです。そこで Spark を入手して、今週末いろいろ試しています。llama.cpp で得られた結果は以下のとおりです：

┌──────────────┬─────────────┬───────────────┬────────────┐ │ Model │ Mac pp16384 │ Spark pp16384 │ Result │ ├──────────────┼─────────────┼───────────────┼────────────┤ │ Qwen 35B A3B │ 1574 t/s │ 2198 t/s │ Spark 1.4x │ ├──────────────┼─────────────┼───────────────┼────────────┤ │ Qwen 27B │ 340 t/s │ 778 t/s │ Spark 2.3x │ ├──────────────┼─────────────┼───────────────┼────────────┤ │ Minimax M2.7 │ 372 t/s │ 763 t/s │ Spark 2.1x │ ├──────────────┼─────────────┼───────────────┼────────────┤ │ Mistral 128B │ 72 t/s │ 241 t/s │ Spark 3.4x │ └──────────────┴─────────────┴───────────────┴────────────┘

最終的に、この単純な用途に対しては exo は少しやり過ぎだと分かりました。そこで私は、llama.cpp の kv シリアライズだけを使い、さらに kv キャッシュの受け渡しを扱うためのラッパーをいくつか用意して、より焦点を絞った直接的なセットアップを Claude に組ませています。

Spark を入手したばかりの人、またはこれから入手しようと思っている人向けに言うと、いまのところ私が見つけた最も重要な点は、llama.cpp で mmap=0 を設定することです。これをしないと、モデルのロード時間が大きく悪化します（数分ではなく 20 秒程度になる）し、プリフィル速度もさらに低下します。

Spark は小型で低電力です。M3 Ultra と組み合わせると、まとまっていて静かな構成の良い補完になります。

もちろん M3 Ultra は、M5 Ultra が持つ帯域幅の約 66% しかないので、デコード速度は低くなります。とはいえ、私はすでに M3 のデコードにはかなり満足しています。M5 Ultra は、もう 1 万ドル（$10k）追加してまで買うほどの十分なブーストにはならないでしょう。現在の構成は、CUDA に対応できる点を除けば、だいたい M5 Max と M5 Ultra の間くらいです。

もし今なにかアップグレードするとしたら、200GbE 経由で 2 台目の Spark を追加することだと思います！

vllm でも、特にバッチングに関して、さらに良いパフォーマンスが引き出せるのかなと思っています。これについて良い情報をお持ちの方がいれば、ここに投稿してもらえますか？私は引き続き実験して、興味がある人がいれば随時報告します。

submitted by /u/-dysangel-
[link] [comments]

Black Hat USA

AI Business

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

M3 Ultra + DGX Sparkで「M5 Ultra-lite」になれる？（llama.cppベンチ結果）

要点

関連記事

Black Hat USA

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

データセンター、新技術が育つ場へ日本の部材産業にチャンス

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

データセンター、新技術が育つ場へ 日本の部材産業にチャンス

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

データセンター、新技術が育つ場へ日本の部材産業にチャンス