LazyMoEを自作 — GPUなしで8GB RAMに120B LLMを動かす(lazy expert loading + TurboQuant)

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、複数のメモリおよび計算削減手法を組み合わせることで、GPUなしの8GB RAMノートPC上で120BパラメータのLLMを動かせるとする自作環境(「LazyMoE」)を紹介している。
  • この手法では、必要になった分だけエキスパートを実行時に読み込むlazyなMixture-of-Experts(MoE)を用いることで、ピーク時のメモリ使用量を削減する。
  • さらに、TurboQuantのKV圧縮を適用してキー・バリューキャッシュを小さくし、限られたRAM内で推論できるようにする。
  • メモリに完全に収まらないモデル/データの一部を扱うためにSSDストリーミングを用い、ストレージ/RAMの制約があっても実行を可能にしている。
  • その記事ではGitHubリポジトリを共有し、フィードバックを呼びかけるとともに、本取り組みを「手頃なハードウェア」上で“大きすぎる”モデルを現実的に動かすためのシステムとして位置づけている。

私はドイツで修士課程の学生で、ある1つの疑問に取り憑かれていました:

自分のハードウェアには「大きすぎる」モデルを実行できますか?

何週間も実験した末、私は3つの手法――怠惰なMoE

エキスパートのロード、TurboQuant KV圧縮、そしてSSDストリーミング――を

組み合わせて、動作するシステムを作りました。

以下は、私のIntel UHD 620のノートPC(

8GB RAMで、GPUなし)で動かしている様子です...

GitHub: https://github.com/patilyashvardhan2002-byte/lazy-moe

このコミュニティからのフィードバックが欲しいです!

提出者: /u/ReasonableRefuse4996
[リンク] [コメント]