低VRAMでKimiを動かし、残りをRAMにオフロードする場合はどうなる?(たぶん多くの人がやっている)

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Redditのユーザーが、12GBのTesla T4のような低いGPUメモリ環境でKimiモデルを動かし、残りをシステムRAMへオフロードした場合の性能(特にトークン出力)を確認しています。
  • デュアルXeon Platinum(48コア/1.5TB RAM)の構成でCPUのみの場合、入力は約20トークン/秒で出力は約1.6トークン/秒と報告しており、かなり厳しい性能だと述べています。
  • NUMAを使っているとしつつ、Q8モデル(Unsloth提供)がQ4モデルよりも自分の環境ではわずかに速かったという、意外な結果を挙げています。
  • 投稿の主眼は、量子化の違いとRAMオフロードが低VRAM環境での出力トークン速度にどう影響するかという、実運用向けのベンチマーク疑問にあります。
  • 全体として、ローカルLLM推論でVRAMが足りないときの性能トレードオフと調整ポイントが浮き彫りになります。

12GBのTesla T4のようなより小さいものを使い、モデルの残りをRAMにオフロードすると、どれくらい出力トークンにメリットがあるのか気になります。

CPUのみで、出力が約~1.6t/s、入力が~20t/sくらいです。これは明らかにひどいです。私はNUMAを使っています。デュアルのXeon Platinum 24c(48c/96t)で、RAMは1.5Tです。

不思議なことに、un slothのQ8モデルは、私のシステムではQ4モデルよりわずかに速いです。

によって投稿 /u/Creative-Type9411
[link] [comments]