12GBのTesla T4のようなより小さいものを使い、モデルの残りをRAMにオフロードすると、どれくらい出力トークンにメリットがあるのか気になります。
CPUのみで、出力が約~1.6t/s、入力が~20t/sくらいです。これは明らかにひどいです。私はNUMAを使っています。デュアルのXeon Platinum 24c(48c/96t)で、RAMは1.5Tです。
不思議なことに、un slothのQ8モデルは、私のシステムではQ4モデルよりわずかに速いです。
[link] [comments]
Reddit r/LocalLLaMA / 2026/5/5
12GBのTesla T4のようなより小さいものを使い、モデルの残りをRAMにオフロードすると、どれくらい出力トークンにメリットがあるのか気になります。
CPUのみで、出力が約~1.6t/s、入力が~20t/sくらいです。これは明らかにひどいです。私はNUMAを使っています。デュアルのXeon Platinum 24c(48c/96t)で、RAMは1.5Tです。
不思議なことに、un slothのQ8モデルは、私のシステムではQ4モデルよりわずかに速いです。