SSDへのこぼし（spilling）によるMoE重みの解析：重みの1/3超がSSDに残っていても、GLM-5はキャッシュのダイナミクスによって意外にも実用可能

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この記事では、Mixture-of-Experts（MoE）モデルの重みをGPU/CPUメモリからSSDストレージへ「spilling（退避）」することの実現可能性を分析し、重みの3分の1を超える割合がSSDに置かれている場合でも、GLM-5はなお許容できる形で動作し得ることを見出す。
驚くほどの実用性は主にキャッシュのダイナミクスによるとし、SSD読み出しの遅延コストの多くが、反復アクセスのパターンによって見えにくくなる可能性が示唆される。
議論の焦点は、重みを完全にメモリ常駐させられないようなローカル環境や制約のある環境における、性能/運用上の含意である。
ストレージ階層の挙動（SSDとより高速な層の違い）がMoE推論の実現性にどう影響するかについて、理論的な限界としてだけ扱うのではなく、実験的/技術的な観点から論じる。

AI Business

AI Business

日経XTECH

日経XTECH

日経XTECH