| FOMOEを紹介します:Fast Opportunistic Mixture Of Experts(fomoと発音します)。 問題:大規模なMixture of Experts(MoE)は、重みのために大量のメモリを必要とします(数百GB)。これらは通常フラッシュメモリ(例:NVMe)に保存されています。ところが推論では、必要になる重みはその一部だけですが、事前にどれが必要かは分かりません。そのため、フラッシュのレイテンシがランダムアクセスパターンに対して高すぎて、推論を一般消費者向けのハードウェアで実行するのは完全に非現実的です。 解決策:大半のエキスパート重みの読み出しを不要にする。 まず、最も一般的なエキスパートをGPUメモリ(VRAM)に保持し、最新のローリングなエキスパートキャッシュを維持します。 ウォームスタート時にVRAMヒット率60%を達成すると、NVMe読み出しは28%まで低下します(残り12%はDRAMから提供)。さらに、重みのロードと計算をオーバーラップするためのデュアルGPUのピンポン(ping-pong)アーキテクチャを追加すれば、すでに5 tok/sを超えます! モデル精度を崩さずに、さらに改善できるでしょうか?洞察:2つのエキスパートのスコアが同程度なら、どちらが実行されてもモデルはほとんど気づきません。 Cache-Aware Routing(CAR)という実験的な機能により、許容できる閾値内で、次点のスコアを持つエキスパートをVRAMまたはDRAMキャッシュ内から選ぶことで、NVMe読み出しを7%まで削減します。 これにより、wikitextで測定したパープレキシティの3.5%低下だけで、~9 tok/sに到達できます。 このシステム全体は、Claude駆動のC/HIPで約15K行(人間が多くガイダンスを与えています)です。 [リンク] [コメント] |
$2,100のデスクトップで、3970億パラメータのQwen3.5フラッグシップモデルを5〜9 tok/sで実行!$500のGPUを2枚、32GB RAM、NVMeドライブ1台。Q4_K_M量子化を使用
Reddit r/LocalLLaMA / 2026/3/24
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この投稿では、FOMOE(Fast Opportunistic Mixture Of Experts)を紹介する。消費者向けハードウェア上で大規模MoE推論を現実的にすることを目的としており、高価なランダムなNVMeへの重み読み出しを削減する。
- もっとも一般的なエキスパートの重みをGPU VRAM上に保持するために、ローリングキャッシュを用いることを提案する。これにより、推論中のNVMeアクセスを削減し、ウォームスタート時にはアクセスが28%まで低下すると報告されている。
- デュアルGPUの「ピンポン」構成を用いて、重みのロードと計算を重ね合わせることで、記載されたセットアップで5トークン/秒超を実現する。
- 実験的なCache-Aware Routing(CAR)機能により、品質の閾値内でVRAM/DRAM上にすでに存在する次点のエキスパートへルーティングすることで、NVMe読み出しを約7%までさらに削減する。
- この記事では、wikitextでのパープレキシティ低下がわずか約3.5%であるのに対し、約9トークン/秒を主張している。また、実装は大規模なC/HIPシステム(約15K行)であり、エンジニアリング作業に大きく導かれていることが述べられている。