セミ自律型の研究開発のための「3xR9700」—セットアップ/設定アイデアを探しています

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditの投稿者が、デュアルのRadeon R9700を中心にしたローカルAIワークステーションの構成を紹介し、プログラミング言語の趣味研究向けに「セミ自律型」の研究開発を行うことを目的にしていると述べています。
  • 彼らは、llama.cpp(Vulkanドライバ使用)でQwen 3.6 27BをQ8で動かした経験を共有しつつ、特に3枚目GPUでPCIe接続が制限される点を、分散シングルモデルの際のボトルネックになり得ると指摘しています。
  • 将来的には、Threadripper系プラットフォームやLR-LinkのようなPCIeファブリックカードでGPU間の帯域を改善したいと考えているものの、費用面で当面は見送る予定だとしています。
  • 制約を回避する方策として、複数のエージェントを並行稼働させる案(例:GPUごとにQ6量子化の~27Bクラスモデルを割り当て、APIベースのオーバーシア(K2.6を言及)でオーケストレーションする)や、小規模タスクではCPU推論も併用することを検討しています。
  • 需要に応じてエージェントやモデルを動的に投入できる「ハーネス」構築について、セットアップ/設定のフィードバックやアイデアを募っています。
半自律的な研究開発向けの3xR9700。セットアップ/構成案を探しています。

みなさんこんにちは。

ここ数か月の間、個人的に使うためのローカルAI環境を組み立ててきました。まずはこの全体のコンセプトについて思ったことを集めるため、そして次に、もしかするとフィードバックを集めるために、ここに投稿しようと思いました。

私の構成は、ここに投稿されている多くのプロ向け構成ほどは高度ではありませんが、以下のスペックです。
- 9950X + 96 GB RAM、
- ASUS ProArt X870E マザーボード、
- 1300W Taichi T1300 PSU、
- 2x ASRock R9700、
(現在出荷中) - XFX R9700。

これまで主に、2枚のカードを一緒に使って Q8 で Qwen 3.6 27B を動かす用途に使っていました。少し試行錯誤はしましたが、全体としては llama.cpp を Vulkan ドライバで動かすことに落ち着きました。

まずは先に言っておくと、このシステムの接続面の制約があることは理解しています。特に3枚目のGPUは、4xのgen4レーンでしか動かないはずです。もし私のGPUすべてにまたがって、1つのモデルを分散実行するとしたら、これはかなり大きなボトルネックになる可能性があります。いずれはスレッドリッパーのようなプラットフォームにアップグレードするか、あるいはPCIeファブリックカードでGPUをより直接的に接続したいと考えています(たとえば、最近 level1techs のチャンネルで LR-Link が紹介されていました)。ただしコストが高いため、それはしばらく先になります。

私は趣味の研究プロジェクトとしてプログラミング言語分野に取り組んでいるので、一般にあまり一般的でない知識にアクセスできることはとても助けになります。私の知る限り、現時点でローカルで動かす用途として、私にとっては 27B 以上のものは特にありません。

将来的には 96GB のVRAMがあるので、もっと大きいものも動かせるかもしれませんが、その場合はPCIの制限が全体のパフォーマンスに影響してくるでしょう。そこで私は、ローカルで 2/3 台のエージェントを動かしつつ、APIを介した K2.6 のような、より賢いAPIオーバーシア(監督役)を使うことを検討していました。スコープが小さめの特定のタスクや、低速でも許容できる場合には、CPUの推論も行うことを考えられます。システムRAMも使える量があるので。

全体として考えていたのは、自分のプロジェクトの範囲で半自律的な研究開発を可能にする何らかのハーネス(枠組み)を組むことです。潜在的な展開としては、たとえば Q6 の量子化(quants)を施した 27B のような構成で、複数のエージェントの開発者/テスター/考える担当者を別々に動かす、といった形がありえます。そうすれば、それぞれが独自のGPUを持てます。ワークロード次第ですが、「オーバーシア」が、現在のワークロードに合わせて必要なエージェントやモデルを動的にデプロイできると便利かもしれません(例えば、特定のタスクでは開発を一度止めて、より大きな知識を活かすためにすべてのGPUで大きめのモデルを一緒に走らせる、のような運用をしたいことがあります)。

このプロジェクトは複雑で具体的な性質を持っており、27B のようなモデルが知識としては持っているものの、必ずしも最適化されていないような、よりニッチなCS分野にも触れます。そのため、重要な点として、必要に応じてエージェントがインターネット検索や、より大きなクラウドモデルにアクセスできるようにすることが鍵になると思っています。

全体として、現時点でよく分かっていないものの、もっと学びたいと考えている私にとっていちばん面白い部分は、このハードウェアのデプロイとプロジェクト管理を行うために、このようなハーネスを効果的に設計する方法です。自分のニーズに合わせて何かを(雰囲気で)コードを書いて過ごすことも十分にできるとは思いますが、少なくとも概念的には、私の環境が何か新しいことをしているとは思いません。LangGraph や CrewAI のような特定の解決策が存在することは知っていますが、どれが自分のユースケースに一番合うのか、また自分のニーズに対してどれくらい拡張可能なのかはまだ確信がありません。

このハードウェア構成や、そこへの潜在的なデプロイについて、他の人たちの経験や考えを聞いてみたいです。

ここまで全部読んでくれたなら、どうもありがとうございます。そしてめちゃくちゃな文章の書き方をお許しください。

それでは。

提供者: /u/blojayble
[リンク] [コメント]