私はドイツで修士課程の学生で、ある1つの疑問に取り憑かれていました:
自分のハードウェアには「大きすぎる」モデルを実行できますか?
何週間も実験した末、私は3つの手法――怠惰なMoE
エキスパートのロード、TurboQuant KV圧縮、そしてSSDストリーミング――を
組み合わせて、動作するシステムを作りました。
以下は、私のIntel UHD 620のノートPC(
8GB RAMで、GPUなし)で動かしている様子です...
GitHub: https://github.com/patilyashvardhan2002-byte/lazy-moe
このコミュニティからのフィードバックが欲しいです!
[リンク] [コメント]




