新しいAI自作PCを作りました。どうか優しく見てください!

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ユーザーは、ローカルでAIモデルを動かすための予算重視のPC自作について、CPU・RAM・SSD・GPUなどの構成や冷却周りの工夫を含めて詳しく紹介しています。
  • AM4環境のデスクトップで、5800X CPU、128GB DDR4(2666MT/s)、AMDの2枚のプロ向けGPU(Radeon Pro W6800とRadeon Pro 9700AI)および高出力電源を採用しています。
  • 12Vコネクタの問題を理由に、9700AIを260W(標準300W)へアンダーボルトし、温度を監視しながら性能低下が小さいと報告しています。
  • ソフト面ではLinux上でROCmを使い、llama.cppやOllamaなどのツールを活用しており、安定稼働には特定のllama.cppビルドが必要だったと述べています。
  • minimax M2.7 Q4程度までのモデルでは非常に速いとされる一方、ゲート付きdelta net attentionに起因してターンごとに再処理が走る問題が残っているとしています。
My New AI build - please be kind!

これは僕の新しいAIマシンです!

Lianli Lancool 217のケースで、フロント吸気用の大きいファンが2基(170×30mm)、底面の吸気ファンが3基(120mm)、背面排気ファンが1基(120mm)+GPUの排気バックが2つ。天井排気が3基(120mm)。そのうち3基は、標準でケースに付属していた分に追加したものです。付けたのはArctic p12 proファンです。

Thermalrite AssassinのCPUクーラー。

ASUS ROG Strix B550aのマザーボード。なぜか同時にx16のPCIeレーンを2倍分交渉していて(同時に動いていて)。それはスペックシートには載っていないんですが、確実に起きています。

5800xプロセッサ。3D版ではありませんが、僕の用途ならそれほど致命的ではありません。

DDR4 3200を2666mt/s cl 18で動かしているので、モデルの重みのオーバーフローに対してはスナッピーです。

32gb Radeon Pro w6800

32gb Radeon Pro 9700AI

1台の古いメカニカル2TBのスピニングディスクドライブ。

メインのブートドライブは2TBのベーシックSSD。十分スナッピーです。

もう1TBのSSDを追加で搭載。

Corsair RM 850e PSU

------

これは予算を抑えたローカルAI用です。さらに、既存のいくつかのハードウェアもアップグレードする必要がありました(RAMとSSDの追加)――なのでデスクトップはAM4構成にしました。僕のラップトップはAM5、AM4、それと、CPU推論用に32GBのDDR4へアップグレードした古いインテルのノートです。ゲームをしたいときはAM5のラッピーを使っています。この神聖なサブで、そんな異端の話はこれ以上しません。

9700AIは、12Vコネクタの問題があったので、標準の300Wから260Wにアンダーボルトしました。温度を注意深く監視していますが、パフォーマンス低下はほとんど、もしくはまったくないように見えます。最大300Wを許可していたとしても、実際にはフルで300Wを引くことは稀でした。

ケーブル管理が下手な件について、PC Master Raceの御大たちにお詫びします。

最後に、これはまだ最終の置き場所ではありません。すぐ引っ越すので、そこで机の上にきちんと設置して、適切な気流があるスペースに整えます。

よし、うまくいきますように。皆さんが僕の素敵なビルドをクソみたいに叩き散らさないでくれると嬉しいです。僕はプロではないので大変でした! しかも金銭的にもストレス!

ありがとう :)

編集:タイポ修正。それと以下:

性能面では、minimax m2.7のq4までなら目がくらむほど速いです。まだそれより大きいモデルは試していません。

両方のGPUがAMDなので、OSはLinuxで、ROCmをllama.cpp、ollama、opencode、Claude Code / コワーカー(クラウド作業用)などと一緒に使っています。いくつか問題もあって、特定のllama.cppビルドを使う必要がありましたが、今は素晴らしく動いています。例外として、gated delta netの注意(attention)で扱いづらさがあり、各ターンで全文再処理が発生します。それ以外は、ちゃんと魅力的に動作します。

単一GPUのタスクは9700へ行き、6800がディスプレイとシステム要件を担当します。より大きいモデルではレイヤーを分割しています。別のアプローチだと、pceiをまたいで複数ターンに渡るせいでレスポンスがかなり遅くなりました。

こちらがllama.cppの設定の例です:

~/llama.cpp/build/bin/llama-server -m /home/ell/models/Mistral-Small-4/Mistral-Small-4-119B-2603-merged.gguf --alias mistral-small-4-119b --split-mode layer --parallel 1 --no-warmup --ctx-size 32768 --fit on --fit-target 4096 --cache-ram 0 -fa auto --no-mmap --host 0.0.0.0 --port 3000

submitted by /u/Ell2509
[link] [comments]