https://claude.ai/public/artifacts/69cb344f-d4ae-4282-b291-72b034533c75
V100 SXM2 NVLinkホームラボ — 完全ガイド(64GB統合VRAMで約1,100ドル)私は数ヶ月にわたりV100 SXM2ハードウェアを研究し、ローカルLLM推論用のホームラボ設計を試みてきました。同じ誤解や質問が繰り返されるのを見てきたので、包括的なリファレンスドキュメントをまとめ、ここに投稿します。完全に言うと、私はまだ研究段階で学んでいる途中ですが、中国のハードウェアコミュニティ、英語のブログ、Bilibiliの組み立て動画、淘宝のリスト、サーバーのデータシートをAI支援でクロスリファレンスし、多くの時間を費やしました。参考にしてみてください。ドキュメントは最後にリンクがあります。全18セクションで、ハードウェア、NVLinkトポロジー、中国からの調達、性能推定、住宅用120Vの電力分析、ソフトウェア互換性、冷却、アップグレードパス、トレーニングの実現可能性、MoEモデル分析、市場情報、BOM、一般的な誤解を網羅しています。概要は以下の通りです。
これは何か?中国の会社1CATai TECH(一猫之下科技)は、NVIDIAのNVLink 2.0信号をリバースエンジニアリングし、カスタムのクアッドGPUアダプターボードを製作しました。このボードはTAQ-SXM2-4P5A5です。4つのV100 SXM2モジュールを搭載すると、4枚すべてにわたる真のNVLinkメッシュが形成されます—約300 GB/sの双方向インターコネクト、実際に機能するテンソル並列性を実現します。PCIeではありません。キャリアボードでもありません。真のNVLinkです。4枚のV100 SXM2 16GBを搭載したクアッドボード、PLX8749 IOカード、ケーブル、冷却装置を含めて、総額約1,000〜1,200ドルで64GBのNVLink統合VRAMが得られます。V100 16GBモジュールは現在1枚あたり56〜99ドルです。
これは何ではないか?ここで人々が間違えやすい点です:
「1つの大きなGPU」ではありません。nvidia-smiは4つの独立したGPUを表示します。NVLinkはテンソル並列処理を高速化しシームレスに感じさせますが、TP(テンソル並列)をサポートするソフトウェア(vLLM、llama.cpp、Ollamaなど)が必要です。自動で統合メモリになるわけではありません。2枚のボードで256GB統合ではありません。2つのクアッドボードはPCIeで接続された別々のNVLinkアイランドであり、ボード間では20倍の帯域幅の崖があります。両ボードでTP=8はひどい結果になります。パイプライン並列処理はより大きなモデルを扱えますが、単一ストリームのトークン処理速度を増やすわけではありません。約900 GB/sという数値は各カードのHBM2帯域幅であり、NVLink帯域幅ではありません。NVLink 2.0はペアごとに約300 GB/s双方向です。どちらの数値も素晴らしいですが異なるものです。SupermicroのAOM-SXM2にはNVLinkはありません。単なるキャリアボードです。これをNVLinkソリューションとして売っているなら間違いか嘘です。実際にNVLinkを実装しているのは1CATaiのボードです。
NVLinkドメインサイズが支配的な指標です。PCIe接続のGPUが3台を超えると、追加カードは計算ではなく高価なVRAMストレージになります。
なぜV100 SXM2を選ぶか?各カードで900 GB/sのHBM2帯域幅。SXM2フォームファクタでのNVLink 2.0。モジュールは使用プラットフォーム間で物理的に同一で、1CATaiのクアッドボード、Supermicro 4029GP-TVRT、Inspur NF5288M5、Dell C4140、DGX-2すべてで同じカードが動作します。一度買えばどこでも使えます。戦略は蓄積であり、売ってアップグレードすることではありません。しかも現在の価格は非常に安価です。スパコンの退役(Summit、Sierra)が二次市場をあふれさせています。ITAD業者が倉庫保管して少しずつ供給しつつ、最低価格を維持していますが、16GBモジュールはすでに1枚56〜99ドルの底値に達しています。
MoEモデルがゲームチェンジャーです。Q4のDense 70Bはシングルクアッドボード上で20〜30トークン/秒しか出ません。問題ありません。しかしDeepSeek V3.2のようなMoEモデル(総685B、アクティブはトークンごとに約37B)は巨大なモデルを格納しつつ、小さいモデルのように動作します。ストレージ要求と推論帯域幅を切り離します。巨大なHBM2帯域幅を持つV100とNVLinkプールは理想的で、フルモデルをVRAMに保持しながらアクティブパラメータスライスを高速に処理できます。このハードウェアはほぼMoEのために設計されました。
120Vサーバーの発見。Supermicro 4029GP-TVRTは8-way V100 SXM2サーバーで完全NVLinkキューブメッシュ(元のDGX-1と同じトポロジー)を持ちます。100-240V対応の広入力PSUを備え、米国標準の壁コンセントで出荷されます。120V環境でPSUは約1,100Wにデレートされます。V100はnvidia-smiで150Wに制限し、システム消費電力は約1,700Wに対し、利用可能容量は約4,400Wです。標準の15A回路2系統で動作します。128GBの8-way NVLink VRAMが家庭用電源で動作します。eBayでの中古価格は意外に低く、8x V100 32GB、デュアルXeon Gold、128GB RAM搭載ユニットが1,000ドル未満で見つかりました。ベアボーンで安い16GBモジュールに入れ替えればさらに安くなります。
調達について。このボードは中国のみから入手可能です。Nvidiaは安価なVRAMプールのためにNVLinkのリバースエンジニアリングを望んでいません。他では製造されていません。クアッドボードは淘宝の代理購入(Superbuy、CSSBuy)で約400ドル、eBayの米国リセラーで約700〜800ドルです。デュアルボード(2カード、39com異社製)はeBayで約230〜380ドルです。2026年11月まで301条関税除外措置が有効で、実質的な搬入コストは予想より低いです。Linuxの要件やセットアップを試したいなら、eBayでデュアルボードとV100 16GBモジュール2枚を買うと良いでしょう。32GB NVLinkを600ドル未満で始められ、このルートが自分に合うかすぐに分かります。WindowsはNVLinkに必要な要素を露出しません。Linuxのみです。英語の参考情報はRex Yuanのブログ(jekyll.rexyuan.com)がベストです。1CATaiのBilibiliチャンネル(一猫之下科技で検索)には組み立て動画とトラブルシューティングガイドがあり、米国からログイン不要で見られます。
注意事項。これらは引退したスパコンから回収されたハードウェアを用いたNVLink改造ボードです。HBM2メモリはホームラボで差し替えできません。現在スパコンの退役により市場にあふれていますが、Nvidiaの堀によって価格破壊は容認されず、全て買い戻すほうが安い可能性があります。供給の持続性は保証されません。存在するうちに入手してください。
完全なドキュメント。性能表、冷却オプション(純正ヒートシンクからBykski水冷ブロックまで)、各構成の電力計算、中国語検索語句、代理購入比較、サーバーアップグレードパス、PLXスイッチトポロジーによる8GPU超えの拡張性、トレーニング可能性分析、V100対AMD APUやコンシューマーGPU比較、$1,150〜$3,850の4つの組み立てBOM、誤解の多い点の一覧など全てをまとめました。V100 SXM2ホームラボバイブルです。質問歓迎、また誤りがあれば訂正も歓迎します。繰り返しますが、まだ学習中です。