こんにちはr/LocalLLaMA、CPUにオフロードするときに重みをプリフェッチする実験的なPRを出しました。長話は省きますが、結果からするとPP(プロンプト処理)において、密な+より小さいMoEモデルに役立ちます。自分のようにメモリは余っているのにGPUが貧しい(不足している)場合は、ぜひ試してみてください。
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/3/28
こんにちはr/LocalLLaMA、CPUにオフロードするときに重みをプリフェッチする実験的なPRを出しました。長話は省きますが、結果からするとPP(プロンプト処理)において、密な+より小さいMoEモデルに役立ちます。自分のようにメモリは余っているのにGPUが貧しい(不足している)場合は、ぜひ試してみてください。