低VRAMでKimiを動かし、残りをRAMにオフロードする場合はどうなる？（たぶん多くの人がやっている）

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Redditのユーザーが、12GBのTesla T4のような低いGPUメモリ環境でKimiモデルを動かし、残りをシステムRAMへオフロードした場合の性能（特にトークン出力）を確認しています。
デュアルXeon Platinum（48コア/1.5TB RAM）の構成でCPUのみの場合、入力は約20トークン/秒で出力は約1.6トークン/秒と報告しており、かなり厳しい性能だと述べています。
NUMAを使っているとしつつ、Q8モデル（Unsloth提供）がQ4モデルよりも自分の環境ではわずかに速かったという、意外な結果を挙げています。
投稿の主眼は、量子化の違いとRAMオフロードが低VRAM環境での出力トークン速度にどう影響するかという、実運用向けのベンチマーク疑問にあります。
全体として、ローカルLLM推論でVRAMが足りないときの性能トレードオフと調整ポイントが浮き彫りになります。

12GBのTesla T4のようなより小さいものを使い、モデルの残りをRAMにオフロードすると、どれくらい出力トークンにメリットがあるのか気になります。

CPUのみで、出力が約~1.6t/s、入力が~20t/sくらいです。これは明らかにひどいです。私はNUMAを使っています。デュアルのXeon Platinum 24c（48c/96t）で、RAMは1.5Tです。

不思議なことに、un slothのQ8モデルは、私のシステムではQ4モデルよりわずかに速いです。