好奇心から vLLM を試すために数日前に Linux に切り替えたところ、Claude Code と gpt-oss-120b を用いてヴァイブコーディングとオーケストレーションを、CCのエージェント Teams を完全にオフラインで動作させる 100％ローカル・並列・マルチエージェント環境を作成しました。この動画は4つのエージェントが協働する様子を映しています。

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

著者は、Linux 上で vLLM を Claude Code と gpt-oss-120b を用いて、ヴァイブコーディングとオーケストレーションのための 100％ローカル・オフライン・並列マルチエージェント環境を構築しました。
Docker コンテナ内で vLLM を実行し、クラウドプロバイダではなく vLLM のローカルホストエンドポイントを指すようにすることで、Agent Teams によるローカル推論オーケストレーションを実現しました。
1つのGPU（RTX Pro 6000 Blackwell MaxQ）上で最大8エージェントを並列実行することに成功し、顕著なスピードアップを観察しました。以前は数時間かかっていたタスクが約30分程度に短縮され、より多くのハードウェアがあればエージェントを数十に拡張可能です。
この設定は Ollama および LM Studio とは対照的で、これらはリクエストを逐次処理して遅くなっていました。Linux への切り替え（Ubuntu を用いたデュアルブート）は Windows のボトルネックを解消し、性能を向上させました。

A few days ago I switched to Linux to try vLLM out of curiosity. Ended up creating a %100 local, parallel, multi-agent setup with Claude Code and gpt-oss-120b for concurrent vibecoding and orchestration with CC's agent Teams entirely offline. This video shows 4 agents collaborating.

これはリポジトリではなく、私の Linux のワークステーションの作り方です。私の設定は以下のとおりでした：

vLLM Docker コンテナ - 簡単なデプロイと並列推論のため。
Claude Code - vibecoding と Agent Teams のオーケストレーション。クラウドプロバイダの代わりに vLLM のローカルホストエンドポイントを指します。
gpt-oss:120b - コーディング・エージェント。
RTX Pro 6000 Blackwell MaxQ - GPU の主力ワークホース
Ubuntu のデュアルブート

私は Linux に切り替えた後、Windows が私の PC とエージェントをどれだけ抑え込んでいたかに気づきませんでした。Ubuntu をデュアルブートに切り替え、vLLM に参加したとき、それはとても力強いものでした。

当時は vibecoding のために Ollama と LM Studio のどちらを使うかを選ぶ必要がありましたが、それらはリクエストを逐次処理し、数回のメッセージのやりとりやツール呼び出しの後にすぐに遅延が生じるため、私のコーディングエージェントは彼らの遅い処理によって常に不利になっていました。

しかし、vLLM が登場し、私の体験を一気に加速させました。動画では4つのエージェントが作業している様子を示しましたが、私のGPUを使って8つのエージェントを並列に連続動作させることに成功しています。スループットの低下を除けば大きな問題はありません（ただしこれはエージェント次第で大きく異なる場合があります）。

エージェントのチーム規模のタスクで、1つずつ完了させるには何時間もかかっていたものが、プロジェクトの範囲次第で今では約30分程度で完了できます。つまり、今年の後半に2台目の MaxQ を購入すれば、同時に動くエージェントの数は容易に十数台に増える可能性があります！

これにより、理論上、複数のプロジェクトをローカルで同時に vibecode することが可能になりますが、そのセットアップは私の PC にとって最良のケースであっても、ところどころ遅延が生じる可能性があります。しかし、1つずつエージェントにプロジェクトを完了させる painstakingly するよりはずっと良いでしょう。

投稿者 /u/swagonflyyyy
[リンク] [コメント]

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

I built an autonomous AI Courtroom using Llama 3.1 8B and CrewAI running 100% locally on my 5070 Ti. The agents debate each other through contextual collaboration.

Reddit r/LocalLLaMA

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

Dev.to

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

Dev.to

要点

関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

提言：CAFという“型”で成功の再現性を高める

I built an autonomous AI Courtroom using Llama 3.1 8B and CrewAI running 100% locally on my 5070 Ti. The agents debate each other through contextual collaboration.

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer