Dual DGX Sparks vs Mac Studio M3 Ultra 512GB:両方でQwen3.5 397Bをローカル実行してみた。分かったことはこれ。

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、Mac Studio M3 Ultra(512GBのユニファイドメモリ)と、デュアルDGX Spark構成(INT4量子化+vLLMのテンソル並列)における、Qwen3.5 397Bのローカルホスティングを比較している。どちらも税抜きではなく税後で約10,000ドルのコストになる。

Slack経由で動かしている個人用AIアシスタントのために、Claude APIのトークン費用として月あたり約2,000ドル使っていました。だいたい45日ほどその痛み(コスト)を味わった後、ローカルに切り替えることに決めました。デュアルのDGX Spark構成と、Mac Studio M3 Ultra 512GBの両方を購入しました。どちらも税抜きでなく、私の支払額は税金込みでそれぞれ約1万ドルです。同じ金額で、完全に別物のマシンでした。どちらもQwen3.5 397B A17Bで動かして分かったことをまとめます。

Mac Studio

MLX 6 bit量子化で、512GBのユニファイドメモリに323GBのモデルをロード。生成速度は30〜40 tok/s。最大の売りはメモリ帯域で、だいたい800 GB/sです。この帯域のおかげで、シングルボックスにこれほど巨大なモデルを載せた状態でもトークン生成が滑らかに感じられます。セットアップは簡単でした。mlx vlmをインストールして、モデルを指定するだけです。弱点は生の計算性能です。プリフィルが遅い(ツール定義付きの大きいシステムプロンプトで30秒超)ですし、推論と一緒にバッチ埋め込みをやりたい場合は、その待ち時間を強く感じるはずです。さらに、mlx vlmはツール呼び出しをパースしたり、思考トークンをネイティブに除去したりできないため、500行くらいのasyncプロキシを書く必要がありました。

デュアル Sparks

INT4 AutoRound量子化で、vLLMのTP=2により2つの128GBノードに98GBずつロード。生成速度は27〜28 tok/s。最大の売りは処理速度です。CUDAテンソルコア、vLLMカーネル、テンソル並列。プリフィルはMac Studioより明確に速いです。MLXで数日かかるバッチ埋め込みが、CUDAでは数時間で終わります。オープンソースのGPUエコシステム全体が「ちゃんと動く」状態です。弱点はメモリ帯域で、ノードあたりだいたい273 GB/sしかありません。そのため、計算量(コンピュート)が多いのに、生成はMac Studioより低いところで頭打ちになります。

ただ、セットアップはかなり過酷でした。使えるQSFPケーブルは1本だけです(2本目はNCCLをクラッシュさせます)。Node2のIPはエフェメラルで、再起動すると消えます。GPUメモリ利用の上限は0.88で、0.9にするとOSが飢餓状態になり、0.85だと262KコンテキストでOOMします。そのため、0.88の付近をバイナリサーチで探す必要があります。誤った推測をするたびに、チェックポイントのシャード再読み込みで15分が溶けます。モデルロードの前には、毎回両方のノードでページキャッシュをフラッシュしないと、謎のOOM失敗が起きます。いくつかのユニットは20分以内にサーマルスロットリングします。安定させるまでには数日かかりました。

両方を残した理由

個人のナレッジベース向けに、Qwen3 Embedding 8BとQwen3 Reranker 8BでRAGパイプラインを作っています。Mac Studioでは、これらのモデルが同じ512GBメモリプールをメインモデルと奪い合う状態になります。Sparksでは、専用のCUDAになり、推論メモリに一切触れません。

結果としてアーキテクチャはこうなりました。Mac Studioは推論専用(モデルとKVキャッシュに対してフルで512GB)。SparksはRAG、埋め込み、再ランキング、そしてその他すべてを担当します。両者はTailscaleで通信します。

直接比較の数値

Mac Studio 512GB デュアル DGX Spark
費用 $10K $10K
メモリ 512GBユニファイド 256GB(128×2)
帯域 ~800 GB/s ~273 GB/s(ノードあたり)
量子化 MLX 6 bit(323GB) INT4 AutoRound(98GB/ノード)
生成速度 30〜40 tok/s 27〜28 tok/s
最大コンテキスト 256Kトークン 130K+トークン
セットアップ 簡単だが手はかかる 大変
強み 帯域 計算
弱み 計算 帯域

どちらか1台しか買えないなら

どちらが良いかは断言できません。もし一方が明確に優れていたら、私はもう片方を返品していたはずだからです。両者は異なるものを最適化しています。

Mac Studioは「とにかく動けばいい」ならおすすめです。滑らかな生成のために、800 GB/sの帯域が欲しいのと、推論と一緒に重い埋め込み処理までやる予定がないからです。RTX 6000 Pro構成は私の第3候補でしたが、この先に予定している他のことに加えて、さらにカスタムPCを組むのは避けたかったです。

デュアル Sparksは、LinuxとDockerに慣れていて、CUDAとvLLMをネイティブに使いたいならおすすめです。RAGや埋め込みを推論と一緒に回す予定があり、長期的にはより強力なプラットフォームのために、初期セットアップに数日を投資できるなら向いています。

Mac Studioは、工数の20%で体験の80%が手に入ります。Sparksは、より多くの能力を得られますが、セットアップにかける時間という“現実のコスト”を引き出してきます。

損益分岐の計算

API支出は月2,000ドル。総ハードウェア費用は2万ドル。損益分岐まで10か月。その後は、完全なプライバシーとレート制限なしで、推論がずっと無料です。

この内容をより長く、ビルド全体の詳細を含めて書いたものがあります:https://substack.com/home/post/p-192255754 。vLLMのチューニング、LangChainなしのRAG、397B MoEのQLoRA微調整まで、フルスタックをカバーする一連の記事を作っています。質問には喜んで答えます。

投稿者 /u/trevorbg
[link] [comments]