AI Navigate

K80からなる6-GPUマルチプレクサ、0.3ミリ秒でモデルをホットスワップ

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 著者は、カスタム Linux カーネルモジュールを使って単一の PCIe スロットを介して6つの GPU ダイを多重化するシステムを構築し、1ミリ秒未満でモデルのホットスワップを実現しています。
  • ハードウェア構成は BTC-S37 マイニング用マザーボードと NVIDIA K80カードを3枚使用しており、6つのダイと約72GBのVRAMを約200ドル程度で提供します。
  • RWKV-X 0.2B (INT8) でのデコードは1秒あたり38トークン、ダイ間の平均スイッチ時間は0.3ミリ秒で、10回の高速スワップを実施しても劣化はなし。
  • 各ダイはロード済みのモデルを永 Persistence で保持し、推論エンジンは純粋な C で実装され、Python 依存はゼロです。
  • 本プロジェクトはボード上の8スロットを埋めることを目指しており、非常に安価なハードウェア上でモデルをロードおよび切り替えできるようにすることで、予算制約のあるAI推論の実用的な道筋を示しています。
6-GPU multiplexer from K80s ‚ hot-swap between models in 0.3ms

Boot AI の開発を進めた後、古いビットコインマイニング用ハードウェアをいくつか購入し、古い NVIDIA のカードを動かせるか試してみました。カスタム Linux カーネルモジュールを使って、1つの PCIe スロットを通じて6つの GPU ダイを多重化するシステムを構築しました。読み込まれたモデル間を1ミリ秒未満で切り替えます。

ハードウェア:

- BTC-S37 マイニング用マザーボード(彼が古い GPU マイニング環境を処分するため、eBay で6台まとめて入手しました。)

- NVIDIA K80 カード x3 = 6 ダイ、総計 72GB VRAM

- 合計:およそ200ドルで72GBの GPU VRAM

結果:

- RWKV-X 0.2B (INT8) のデコード 38 トークン/秒

- ダイ間の平均切替時間 0.3ms

- 高速スワップを10回、劣化ゼロ

- 各ダイは自分のモデルを永続的に保持

推論エンジンは純粋な C で、Python 依存は一切なし。まだ初期段階だが、ボード上の8スロットをすべて埋め、モデルをロードして任意に切り替えられるよう、安価なハードウェアで動作させることを目標としている。

なぜ?、より良いハードウェアを手に入れる余裕がなく、動作させるために必要なカーネルオブジェクトを作成できるだけの能力がある。棚にあるこのマザーボードは、これらのカードのいずれも動作させることができない。超楽しいプロジェクトだ。今は最適化して、より良いモデルを動かせるようにする必要がある。

投稿者 /u/Electrical_Ninja3805
[リンク] [コメント]