AI Navigate

256 GB VRAMのローカル環境とクラスタ計画へのフィードバック。地元志向の弁護士。

Reddit r/LocalLLaMA / 2026/3/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者はローカルAIクラスターのノード1を構築しており、Gigabyte Threadripperマザーボード、256 GBのRAM、8基のNvidia V100 GPUを搭載しています。総電力は約2800ワットの2系統の回路で供給され、GPUを追加してノード2を開始する予定です。
  • オフィスのワークステーションを使い続けるためWindowsを使用しており、クラスタ用に240 V回路を設置する予定で、NVLink/SXMなどの高速インターコネクトとPCIeスイッチおよびライザーケーブルによるネットワーキングを検討しています。
  • 目的は、過去10年間に蓄積した作業を対象にローカルのRAGデータベースを作成し、定型的な作業を自動化し、法的用途のためのRAGとQloraトレーニングを用いて大規模推論モデルをテストすることです。
  • 電源管理と筐体設計(ガラス/金属、複数段階のエアフロー)に関する実用的なフィードバックを求めており、ローカルでの大規模モデルの実行経験(GLM、DeepSeek、Minimaxi 2.5)および法的タスクのQloraトレーニングの経験を求めています。
  • 次のステップはヒートシンクとケーブルの整理を行い、ノード2へ移行し、熱放散とエアフローを考慮しつつハードウェアを拡張することです。
Feedback on my 256gb VRAM local setup and cluster plans. Lawyer keeping it local.

私は Claude のコードに魅了されて約90日ほど前に、AIツールで何をしたいかを考え、私にとって実験する最も安全な方法は自分自身のローカルクラスタを構築することだと結論づけました。自分が取り組んでいたことについて以前投稿したとき、フィードバックは役に立ちました。

今後私が何をすべきかについて、誰かからのフィードバックや提案はありますか。

とにかく、ノード1はこの時点でほぼ完成しています。Gigabyte の Threadripper ボード、256GB の DDR4、そして 8 枚の 32GB Nvidia V100。オフィスには別々の回路に供給される二つの電源ユニットがあり、合計で2800 ワットです(まだ大家に240ボルトの設置許可を取っていません)。私は… Windows … を実行しています。なぜなら日常のオフィス作業のためにまだそのコンピュータを使っているからです。しかしこのノード1の次のステップとしては、おそらく240ボルトのプラグを設置してもらい、さらに 2~4 台の V100 を追加して、ノード1を終わりにする、ということになるでしょう。

4枚カードのパススルーボードのうち1枚の写真を撮りました。これらの NVLinks はそれぞれ 128Gb/s の SXM V100 で、2台の PEX スイッチと 4 本のスリム SAS ケーブルを使って x16 でボードへ戻されます。

完成しているのは、4枚カードのボードだけで、2枚カードのボードはフット部、2枚 PCIe V100 です。待機中には 2枚カード SXM ボードが2つ、4枚カード SXM ボードが1つあります。そして SXM V100 が 3 枚とヒートシンク(徐々に追加しています)。

目標は、私が保存してきた過去10年間のデータを使ってローカルRAGデータベースを作成し、可能な限り自動化して、日常業務をすべて自動化し、半日常業務は85%の精度で実現することです。最高級の推論モデルを動かせるようにし、それらを RAG でテストし、次に QLoRA でトレーニングします。

この要求を満たす膨大な電源ケーブルをどう管理するか、誰か提案はありますか。私はこの4枚カードのボードを ATX タワーケースに入れ、2枚目のボード用にもう1枚を用意しましたが、それ以外の機材(マザーボード、PCIe カード2枚、SXM ボード2枚)は、鉱山リグのようにオープンベンチ/オープンエアで置いています。美しく見えるガラスと金属の3段風量ボックスのようなものをぜひ作ってほしいです。

また、大規模モデルとして GLM や Full DeepSeek、Minimax 2.5 のようなものを、このような用途でローカルに実際に使用した人がいるか、あるいは法的用途のために Qlora のトレーニングを行った人がいるか、知りたいです。

今後については、オフィスのヒートシンクとライザーケーブルの散乱物をいくらか片付け、スーツの熱伝達ペーストを落としてからノード2に着手します。romed2 ボードとプロセッサを持っており、DDR4サーバRAMの緩いモジュールをさまざま持っていますが、合計はおそらく192GB程度です。RTX3090を3枚持っています。おそらく4枚目を追加して NVLink で接続する予定です。

私の残りの在庫は、Supermicro X10DRG ボードとプロセッサ、P40 が6枚、P100 が6枚、16GB V100 SXM が4枚、さらに古いX10ボードとプロセッサ、DDR4サーバRAMの緩いモジュール、そして別のボードとプロセッサの組み合わせが数点(X299A 64GB DDR4、そして私の2019年のゲーミングPC)です。

元々の計画(もしかしたら今も計画しているかもしれません)は、VRAMを非常に多く積んで、分散クラスタ上で史上最大級のモデルをゆっくり動かし、訴訟案件の相手方の秘密の動機と戦略を私に伝えてくれるようにすることでした。そして、それを使ってなぜ自分が満足できず、常にもっと欲しくなるのかを教えてくれるかもしれません。Opus 4.6 がそれらすべてにおいてより良いものになるのではないかと心配しています。

この実際の投稿はAIの助けを一切借りずに書きました。まだ魂が内側にあるからです。

1週間後には、Claude が書き直したバージョンを再投稿して、皆さんがどれだけ brainwashed されているかを見てみます。

とにかく質問をしてください、助言をください、私が愚かだとどうしてそう思うのかを詳しく説明してください。ですが、それを正直に言ってください、アニメオタクの皆さん。

投稿者 /u/TumbleweedNew6515
[リンク] [コメント]