$2,100のデスクトップで、3970億パラメータのQwen3.5フラッグシップモデルを5〜9 tok/sで実行！$500のGPUを2枚、32GB RAM、NVMeドライブ1台。Q4_K_M量子化を使用

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この投稿では、FOMOE（Fast Opportunistic Mixture Of Experts）を紹介する。消費者向けハードウェア上で大規模MoE推論を現実的にすることを目的としており、高価なランダムなNVMeへの重み読み出しを削減する。
もっとも一般的なエキスパートの重みをGPU VRAM上に保持するために、ローリングキャッシュを用いることを提案する。これにより、推論中のNVMeアクセスを削減し、ウォームスタート時にはアクセスが28%まで低下すると報告されている。
デュアルGPUの「ピンポン」構成を用いて、重みのロードと計算を重ね合わせることで、記載されたセットアップで5トークン/秒超を実現する。
実験的なCache-Aware Routing（CAR）機能により、品質の閾値内でVRAM/DRAM上にすでに存在する次点のエキスパートへルーティングすることで、NVMe読み出しを約7%までさらに削減する。
この記事では、wikitextでのパープレキシティ低下がわずか約3.5%であるのに対し、約9トークン/秒を主張している。また、実装は大規模なC/HIPシステム（約15K行）であり、エンジニアリング作業に大きく導かれていることが述べられている。

3970億パラメータのQwen3.5フラッグシップモデルを、$2,100のデスクトップで5～9 tok/s！　GPUは$500を2枚、メモリ32GB、NVMeドライブ1基。Q4_K_Mの量子化を使用

FOMOEを紹介します：Fast Opportunistic Mixture Of Experts（fomoと発音します）。

問題：大規模なMixture of Experts（MoE）は、重みのために大量のメモリを必要とします（数百GB）。これらは通常フラッシュメモリ（例：NVMe）に保存されています。ところが推論では、必要になる重みはその一部だけですが、事前にどれが必要かは分かりません。そのため、フラッシュのレイテンシがランダムアクセスパターンに対して高すぎて、推論を一般消費者向けのハードウェアで実行するのは完全に非現実的です。

解決策：大半のエキスパート重みの読み出しを不要にする。

まず、最も一般的なエキスパートをGPUメモリ（VRAM）に保持し、最新のローリングなエキスパートキャッシュを維持します。

ウォームスタート時にVRAMヒット率60%を達成すると、NVMe読み出しは28%まで低下します（残り12%はDRAMから提供）。さらに、重みのロードと計算をオーバーラップするためのデュアルGPUのピンポン（ping-pong）アーキテクチャを追加すれば、すでに5 tok/sを超えます！

モデル精度を崩さずに、さらに改善できるでしょうか？洞察：2つのエキスパートのスコアが同程度なら、どちらが実行されてもモデルはほとんど気づきません。

Cache-Aware Routing（CAR）という実験的な機能により、許容できる閾値内で、次点のスコアを持つエキスパートをVRAMまたはDRAMキャッシュ内から選ぶことで、NVMe読み出しを7%まで削減します。

これにより、wikitextで測定したパープレキシティの3.5%低下だけで、~9 tok/sに到達できます。

このシステム全体は、Claude駆動のC/HIPで約15K行（人間が多くガイダンスを与えています）です。

https://preview.redd.it/d1th0dsbkvqg1.jpg?width=1280&format=pjpg&auto=webp&s=6bb456c55a762fc4e57b4313c887b9a5fe6ae582

投稿者： /u/Rare-Tadpole-8841
[リンク] [コメント]

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

Publickey

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

Dev.to

$2,100のデスクトップで、3970億パラメータのQwen3.5フラッグシップモデルを5〜9 tok/sで実行！$500のGPUを2枚、32GB RAM、NVMeドライブ1台。Q4_K_M量子化を使用

要点

関連記事

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer