| これはリポジトリではなく、私の Linux のワークステーションの作り方です。私の設定は以下のとおりでした:
私は Linux に切り替えた後、Windows が私の PC とエージェントをどれだけ抑え込んでいたかに気づきませんでした。Ubuntu をデュアルブートに切り替え、vLLM に参加したとき、それはとても力強いものでした。 当時は vibecoding のために Ollama と LM Studio のどちらを使うかを選ぶ必要がありましたが、それらはリクエストを逐次処理し、数回のメッセージのやりとりやツール呼び出しの後にすぐに遅延が生じるため、私のコーディングエージェントは彼らの遅い処理によって常に不利になっていました。 しかし、vLLM が登場し、私の体験を一気に加速させました。動画では4つのエージェントが作業している様子を示しましたが、私のGPUを使って8つのエージェントを並列に連続動作させることに成功しています。スループットの低下を除けば大きな問題はありません(ただしこれはエージェント次第で大きく異なる場合があります)。 エージェントのチーム規模のタスクで、1つずつ完了させるには何時間もかかっていたものが、プロジェクトの範囲次第で今では約30分程度で完了できます。つまり、今年の後半に2台目の MaxQ を購入すれば、同時に動くエージェントの数は容易に十数台に増える可能性があります! これにより、理論上、複数のプロジェクトをローカルで同時に vibecode することが可能になりますが、そのセットアップは私の PC にとって最良のケースであっても、ところどころ遅延が生じる可能性があります。しかし、1つずつエージェントにプロジェクトを完了させる painstakingly するよりはずっと良いでしょう。 [リンク] [コメント] |
好奇心から vLLM を試すために数日前に Linux に切り替えたところ、Claude Code と gpt-oss-120b を用いてヴァイブコーディングとオーケストレーションを、CCのエージェント Teams を完全にオフラインで動作させる 100% ローカル・並列・マルチエージェント環境を作成しました。この動画は4つのエージェントが協働する様子を映しています。
Reddit r/LocalLLaMA / 2026/3/22
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- 著者は、Linux 上で vLLM を Claude Code と gpt-oss-120b を用いて、ヴァイブコーディングとオーケストレーションのための 100%ローカル・オフライン・並列マルチエージェント環境を構築しました。
- Docker コンテナ内で vLLM を実行し、クラウドプロバイダではなく vLLM のローカルホストエンドポイントを指すようにすることで、Agent Teams によるローカル推論オーケストレーションを実現しました。
- 1つのGPU(RTX Pro 6000 Blackwell MaxQ)上で最大8エージェントを並列実行することに成功し、顕著なスピードアップを観察しました。以前は数時間かかっていたタスクが約30分程度に短縮され、より多くのハードウェアがあればエージェントを数十に拡張可能です。
- この設定は Ollama および LM Studio とは対照的で、これらはリクエストを逐次処理して遅くなっていました。Linux への切り替え(Ubuntu を用いたデュアルブート)は Windows のボトルネックを解消し、性能を向上させました。
関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】
note
提言:CAFという“型”で成功の再現性を高める
日経XTECH

I built an autonomous AI Courtroom using Llama 3.1 8B and CrewAI running 100% locally on my 5070 Ti. The agents debate each other through contextual collaboration.
Reddit r/LocalLLaMA
The Honest Guide to AI Writing Tools in 2026 (What Actually Works)
Dev.to
The Honest Guide to AI Writing Tools in 2026 (What Actually Works)
Dev.to