LazyMoEを自作 — GPUなしで8GB RAMに120B LLMを動かす（lazy expert loading + TurboQuant）

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

著者は、複数のメモリおよび計算削減手法を組み合わせることで、GPUなしの8GB RAMノートPC上で120BパラメータのLLMを動かせるとする自作環境（「LazyMoE」）を紹介している。
この手法では、必要になった分だけエキスパートを実行時に読み込むlazyなMixture-of-Experts（MoE）を用いることで、ピーク時のメモリ使用量を削減する。
さらに、TurboQuantのKV圧縮を適用してキー・バリューキャッシュを小さくし、限られたRAM内で推論できるようにする。
メモリに完全に収まらないモデル／データの一部を扱うためにSSDストリーミングを用い、ストレージ／RAMの制約があっても実行を可能にしている。
その記事ではGitHubリポジトリを共有し、フィードバックを呼びかけるとともに、本取り組みを「手頃なハードウェア」上で“大きすぎる”モデルを現実的に動かすためのシステムとして位置づけている。

私はドイツで修士課程の学生で、ある1つの疑問に取り憑かれていました：

自分のハードウェアには「大きすぎる」モデルを実行できますか？

何週間も実験した末、私は3つの手法――怠惰なMoE

エキスパートのロード、TurboQuant KV圧縮、そしてSSDストリーミング――を

組み合わせて、動作するシステムを作りました。

以下は、私のIntel UHD 620のノートPC（

8GB RAMで、GPUなし）で動かしている様子です...

GitHub: https://github.com/patilyashvardhan2002-byte/lazy-moe

このコミュニティからのフィードバックが欲しいです！

提出者： /u/ReasonableRefuse4996
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

LazyMoEを自作 — GPUなしで8GB RAMに120B LLMを動かす（lazy expert loading + TurboQuant）

要点

関連記事

Black Hat USA

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ