Slack経由で動かしている個人用AIアシスタントのために、Claude APIのトークン費用として月あたり約2,000ドル使っていました。だいたい45日ほどその痛み(コスト)を味わった後、ローカルに切り替えることに決めました。デュアルのDGX Spark構成と、Mac Studio M3 Ultra 512GBの両方を購入しました。どちらも税抜きでなく、私の支払額は税金込みでそれぞれ約1万ドルです。同じ金額で、完全に別物のマシンでした。どちらもQwen3.5 397B A17Bで動かして分かったことをまとめます。
Mac Studio
MLX 6 bit量子化で、512GBのユニファイドメモリに323GBのモデルをロード。生成速度は30〜40 tok/s。最大の売りはメモリ帯域で、だいたい800 GB/sです。この帯域のおかげで、シングルボックスにこれほど巨大なモデルを載せた状態でもトークン生成が滑らかに感じられます。セットアップは簡単でした。mlx vlmをインストールして、モデルを指定するだけです。弱点は生の計算性能です。プリフィルが遅い(ツール定義付きの大きいシステムプロンプトで30秒超)ですし、推論と一緒にバッチ埋め込みをやりたい場合は、その待ち時間を強く感じるはずです。さらに、mlx vlmはツール呼び出しをパースしたり、思考トークンをネイティブに除去したりできないため、500行くらいのasyncプロキシを書く必要がありました。
デュアル Sparks
INT4 AutoRound量子化で、vLLMのTP=2により2つの128GBノードに98GBずつロード。生成速度は27〜28 tok/s。最大の売りは処理速度です。CUDAテンソルコア、vLLMカーネル、テンソル並列。プリフィルはMac Studioより明確に速いです。MLXで数日かかるバッチ埋め込みが、CUDAでは数時間で終わります。オープンソースのGPUエコシステム全体が「ちゃんと動く」状態です。弱点はメモリ帯域で、ノードあたりだいたい273 GB/sしかありません。そのため、計算量(コンピュート)が多いのに、生成はMac Studioより低いところで頭打ちになります。
ただ、セットアップはかなり過酷でした。使えるQSFPケーブルは1本だけです(2本目はNCCLをクラッシュさせます)。Node2のIPはエフェメラルで、再起動すると消えます。GPUメモリ利用の上限は0.88で、0.9にするとOSが飢餓状態になり、0.85だと262KコンテキストでOOMします。そのため、0.88の付近をバイナリサーチで探す必要があります。誤った推測をするたびに、チェックポイントのシャード再読み込みで15分が溶けます。モデルロードの前には、毎回両方のノードでページキャッシュをフラッシュしないと、謎のOOM失敗が起きます。いくつかのユニットは20分以内にサーマルスロットリングします。安定させるまでには数日かかりました。
両方を残した理由
個人のナレッジベース向けに、Qwen3 Embedding 8BとQwen3 Reranker 8BでRAGパイプラインを作っています。Mac Studioでは、これらのモデルが同じ512GBメモリプールをメインモデルと奪い合う状態になります。Sparksでは、専用のCUDAになり、推論メモリに一切触れません。
結果としてアーキテクチャはこうなりました。Mac Studioは推論専用(モデルとKVキャッシュに対してフルで512GB)。SparksはRAG、埋め込み、再ランキング、そしてその他すべてを担当します。両者はTailscaleで通信します。
直接比較の数値
| Mac Studio 512GB | デュアル DGX Spark | |
|---|---|---|
| 費用 | $10K | $10K |
| メモリ | 512GBユニファイド | 256GB(128×2) |
| 帯域 | ~800 GB/s | ~273 GB/s(ノードあたり) |
| 量子化 | MLX 6 bit(323GB) | INT4 AutoRound(98GB/ノード) |
| 生成速度 | 30〜40 tok/s | 27〜28 tok/s |
| 最大コンテキスト | 256Kトークン | 130K+トークン |
| セットアップ | 簡単だが手はかかる | 大変 |
| 強み | 帯域 | 計算 |
| 弱み | 計算 | 帯域 |
どちらか1台しか買えないなら
どちらが良いかは断言できません。もし一方が明確に優れていたら、私はもう片方を返品していたはずだからです。両者は異なるものを最適化しています。
Mac Studioは「とにかく動けばいい」ならおすすめです。滑らかな生成のために、800 GB/sの帯域が欲しいのと、推論と一緒に重い埋め込み処理までやる予定がないからです。RTX 6000 Pro構成は私の第3候補でしたが、この先に予定している他のことに加えて、さらにカスタムPCを組むのは避けたかったです。
デュアル Sparksは、LinuxとDockerに慣れていて、CUDAとvLLMをネイティブに使いたいならおすすめです。RAGや埋め込みを推論と一緒に回す予定があり、長期的にはより強力なプラットフォームのために、初期セットアップに数日を投資できるなら向いています。
Mac Studioは、工数の20%で体験の80%が手に入ります。Sparksは、より多くの能力を得られますが、セットアップにかける時間という“現実のコスト”を引き出してきます。
損益分岐の計算
API支出は月2,000ドル。総ハードウェア費用は2万ドル。損益分岐まで10か月。その後は、完全なプライバシーとレート制限なしで、推論がずっと無料です。
この内容をより長く、ビルド全体の詳細を含めて書いたものがあります:https://substack.com/home/post/p-192255754 。vLLMのチューニング、LangChainなしのRAG、397B MoEのQLoRA微調整まで、フルスタックをカバーする一連の記事を作っています。質問には喜んで答えます。
[link] [comments]