K80からなる6-GPUマルチプレクサ、0.3ミリ秒でモデルをホットスワップ

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

著者は、カスタム Linux カーネルモジュールを使って単一の PCIe スロットを介して6つの GPU ダイを多重化するシステムを構築し、1ミリ秒未満でモデルのホットスワップを実現しています。
ハードウェア構成は BTC-S37 マイニング用マザーボードと NVIDIA K80カードを3枚使用しており、6つのダイと約72GBのVRAMを約200ドル程度で提供します。
RWKV-X 0.2B (INT8) でのデコードは1秒あたり38トークン、ダイ間の平均スイッチ時間は0.3ミリ秒で、10回の高速スワップを実施しても劣化はなし。
各ダイはロード済みのモデルを永 Persistence で保持し、推論エンジンは純粋な C で実装され、Python 依存はゼロです。
本プロジェクトはボード上の8スロットを埋めることを目指しており、非常に安価なハードウェア上でモデルをロードおよび切り替えできるようにすることで、予算制約のあるAI推論の実用的な道筋を示しています。

6-GPU multiplexer from K80s ‚ hot-swap between models in 0.3ms

Boot AI の開発を進めた後、古いビットコインマイニング用ハードウェアをいくつか購入し、古い NVIDIA のカードを動かせるか試してみました。カスタム Linux カーネルモジュールを使って、1つの PCIe スロットを通じて6つの GPU ダイを多重化するシステムを構築しました。読み込まれたモデル間を1ミリ秒未満で切り替えます。

ハードウェア：

- BTC-S37 マイニング用マザーボード（彼が古い GPU マイニング環境を処分するため、eBay で6台まとめて入手しました。）

- NVIDIA K80 カード x3 = 6 ダイ、総計 72GB VRAM

- 合計：およそ200ドルで72GBの GPU VRAM

結果：

- RWKV-X 0.2B (INT8) のデコード 38 トークン/秒

- ダイ間の平均切替時間 0.3ms

- 高速スワップを10回、劣化ゼロ

- 各ダイは自分のモデルを永続的に保持

推論エンジンは純粋な C で、Python 依存は一切なし。まだ初期段階だが、ボード上の8スロットをすべて埋め、モデルをロードして任意に切り替えられるよう、安価なハードウェアで動作させることを目標としている。

なぜ？、より良いハードウェアを手に入れる余裕がなく、動作させるために必要なカーネルオブジェクトを作成できるだけの能力がある。棚にあるこのマザーボードは、これらのカードのいずれも動作させることができない。超楽しいプロジェクトだ。今は最適化して、より良いモデルを動かせるようにする必要がある。

投稿者 /u/Electrical_Ninja3805
[リンク] [コメント]

生成AI画像つぶやきAIアート【渾身の一枚】vol.30｜ChatGPT｜生成AI｜私の作品紹介｜アートを楽しむ｜つぶやきAIアート | アート作品 | 画像生成AI

note

AI画像生成素人の私にはFireflyくらいがちょうどいい😊

note

AIは知識編集装置である | おじの解説 | 📗 AIを組織で回す技術 015

note

６０代平社員の逆襲！ＡＩチームを雇って仮想社長に

note

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

K80からなる6-GPUマルチプレクサ、0.3ミリ秒でモデルをホットスワップ

要点

関連記事

生成AI画像つぶやきAIアート【渾身の一枚】vol.30｜ChatGPT｜生成AI｜私の作品紹介｜アートを楽しむ｜つぶやきAIアート | アート作品 | 画像生成AI

AI画像生成素人の私にはFireflyくらいがちょうどいい😊

AIは知識編集装置である | おじの解説 | 📗 AIを組織で回す技術 015

６０代平社員の逆襲！ＡＩチームを雇って仮想社長に

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer