Dual DGX Sparks vs Mac Studio M3 Ultra 512GB：両方でQwen3.5 397Bをローカル実行してみた。分かったことはこれ。

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

著者は、Mac Studio M3 Ultra（512GBのユニファイドメモリ）と、デュアルDGX Spark構成（INT4量子化＋vLLMのテンソル並列）における、Qwen3.5 397Bのローカルホスティングを比較している。どちらも税抜きではなく税後で約10,000ドルのコストになる。

Slack経由で動かしている個人用AIアシスタントのために、Claude APIのトークン費用として月あたり約2,000ドル使っていました。だいたい45日ほどその痛み（コスト）を味わった後、ローカルに切り替えることに決めました。デュアルのDGX Spark構成と、Mac Studio M3 Ultra 512GBの両方を購入しました。どちらも税抜きでなく、私の支払額は税金込みでそれぞれ約1万ドルです。同じ金額で、完全に別物のマシンでした。どちらもQwen3.5 397B A17Bで動かして分かったことをまとめます。

Mac Studio

MLX 6 bit量子化で、512GBのユニファイドメモリに323GBのモデルをロード。生成速度は30〜40 tok/s。最大の売りはメモリ帯域で、だいたい800 GB/sです。この帯域のおかげで、シングルボックスにこれほど巨大なモデルを載せた状態でもトークン生成が滑らかに感じられます。セットアップは簡単でした。mlx vlmをインストールして、モデルを指定するだけです。弱点は生の計算性能です。プリフィルが遅い（ツール定義付きの大きいシステムプロンプトで30秒超）ですし、推論と一緒にバッチ埋め込みをやりたい場合は、その待ち時間を強く感じるはずです。さらに、mlx vlmはツール呼び出しをパースしたり、思考トークンをネイティブに除去したりできないため、500行くらいのasyncプロキシを書く必要がありました。

デュアル Sparks

INT4 AutoRound量子化で、vLLMのTP=2により2つの128GBノードに98GBずつロード。生成速度は27〜28 tok/s。最大の売りは処理速度です。CUDAテンソルコア、vLLMカーネル、テンソル並列。プリフィルはMac Studioより明確に速いです。MLXで数日かかるバッチ埋め込みが、CUDAでは数時間で終わります。オープンソースのGPUエコシステム全体が「ちゃんと動く」状態です。弱点はメモリ帯域で、ノードあたりだいたい273 GB/sしかありません。そのため、計算量（コンピュート）が多いのに、生成はMac Studioより低いところで頭打ちになります。

ただ、セットアップはかなり過酷でした。使えるQSFPケーブルは1本だけです（2本目はNCCLをクラッシュさせます）。Node2のIPはエフェメラルで、再起動すると消えます。GPUメモリ利用の上限は0.88で、0.9にするとOSが飢餓状態になり、0.85だと262KコンテキストでOOMします。そのため、0.88の付近をバイナリサーチで探す必要があります。誤った推測をするたびに、チェックポイントのシャード再読み込みで15分が溶けます。モデルロードの前には、毎回両方のノードでページキャッシュをフラッシュしないと、謎のOOM失敗が起きます。いくつかのユニットは20分以内にサーマルスロットリングします。安定させるまでには数日かかりました。

両方を残した理由

個人のナレッジベース向けに、Qwen3 Embedding 8BとQwen3 Reranker 8BでRAGパイプラインを作っています。Mac Studioでは、これらのモデルが同じ512GBメモリプールをメインモデルと奪い合う状態になります。Sparksでは、専用のCUDAになり、推論メモリに一切触れません。

結果としてアーキテクチャはこうなりました。Mac Studioは推論専用（モデルとKVキャッシュに対してフルで512GB）。SparksはRAG、埋め込み、再ランキング、そしてその他すべてを担当します。両者はTailscaleで通信します。

直接比較の数値

	Mac Studio 512GB	デュアル DGX Spark
費用	$10K	$10K
メモリ	512GBユニファイド	256GB（128×2）
帯域	~800 GB/s	~273 GB/s（ノードあたり）
量子化	MLX 6 bit（323GB）	INT4 AutoRound（98GB/ノード）
生成速度	30〜40 tok/s	27〜28 tok/s
最大コンテキスト	256Kトークン	130K+トークン
セットアップ	簡単だが手はかかる	大変
強み	帯域	計算
弱み	計算	帯域

どちらか1台しか買えないなら

どちらが良いかは断言できません。もし一方が明確に優れていたら、私はもう片方を返品していたはずだからです。両者は異なるものを最適化しています。

Mac Studioは「とにかく動けばいい」ならおすすめです。滑らかな生成のために、800 GB/sの帯域が欲しいのと、推論と一緒に重い埋め込み処理までやる予定がないからです。RTX 6000 Pro構成は私の第3候補でしたが、この先に予定している他のことに加えて、さらにカスタムPCを組むのは避けたかったです。

デュアル Sparksは、LinuxとDockerに慣れていて、CUDAとvLLMをネイティブに使いたいならおすすめです。RAGや埋め込みを推論と一緒に回す予定があり、長期的にはより強力なプラットフォームのために、初期セットアップに数日を投資できるなら向いています。

Mac Studioは、工数の20%で体験の80%が手に入ります。Sparksは、より多くの能力を得られますが、セットアップにかける時間という“現実のコスト”を引き出してきます。

損益分岐の計算

API支出は月2,000ドル。総ハードウェア費用は2万ドル。損益分岐まで10か月。その後は、完全なプライバシーとレート制限なしで、推論がずっと無料です。

この内容をより長く、ビルド全体の詳細を含めて書いたものがあります：https://substack.com/home/post/p-192255754 。vLLMのチューニング、LangChainなしのRAG、397B MoEのQLoRA微調整まで、フルスタックをカバーする一連の記事を作っています。質問には喜んで答えます。

投稿者 /u/trevorbg
[link] [comments]

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

日経XTECH

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

人工知能とは何か？実際にはどのように動くのか？

Dev.to

Dual DGX Sparks vs Mac Studio M3 Ultra 512GB：両方でQwen3.5 397Bをローカル実行してみた。分かったことはこれ。

要点

関連記事

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

人工知能とは何か？実際にはどのように動くのか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer