SSDへのこぼし(spilling)によるMoE重みの解析:重みの1/3超がSSDに残っていても、GLM-5はキャッシュのダイナミクスによって意外にも実用可能

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この記事では、Mixture-of-Experts(MoE)モデルの重みをGPU/CPUメモリからSSDストレージへ「spilling(退避)」することの実現可能性を分析し、重みの3分の1を超える割合がSSDに置かれている場合でも、GLM-5はなお許容できる形で動作し得ることを見出す。
  • 驚くほどの実用性は主にキャッシュのダイナミクスによるとし、SSD読み出しの遅延コストの多くが、反復アクセスのパターンによって見えにくくなる可能性が示唆される。
  • 議論の焦点は、重みを完全にメモリ常駐させられないようなローカル環境や制約のある環境における、性能/運用上の含意である。
  • ストレージ階層の挙動(SSDとより高速な層の違い)がMoE推論の実現性にどう影響するかについて、理論的な限界としてだけ扱うのではなく、実験的/技術的な観点から論じる。