GLM 5.1をローカルで動かす:40TPS、2000+PP/s

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 著者は、GLM 5.1のreap-ed nvfp4版をローカルで安定稼働させ、350W制限の4基のRTX 6000 Pro上で高速な推論ができたと報告している。
  • スループットはコンテキスト長ごとに整理されており、prefillのトークン処理能力(PP@4096)はコンテキストが長くなるほど低下する一方、生成側のスループット(TG@512)は比較的安定しつつ長いコンテキストで徐々に落ち込むとしている。
  • 生成のピーク(バースト)スループットは低40tps台(約43がピーク)で、opencodeによる体感はSonnet+Claude Codeにかなり近いと述べている。
  • 設定は10万〜20万セッションを安定して処理できるとされ、著者は週末に並列度(コンカレンシー)の別設定を試す予定で、並列度=2では生成が平均約65tpsだったと付記している。
  • 投稿では、同じハードでより良い性能が出せた人の情報提供を呼びかけている。

いくつかのsglangパッチ適用と、数え切れないほどの実験の末、4 x RTX 6000 Pro(350Wに制限)で reap-ed nvfp4 バージョンを安定して、しかも高速に動作させることができました。性能と品質にとても満足しています。推論ソフトウェアは、これらのカードに対してまだ最適化不足です。今年または来年の初めには、その真のポテンシャルが明らかになるのではないかと思います。

コンテキスト深度別のスループット

プリフィル PP@4096 TG@512
0 2229.0 42.03
4K 1943.6 41.41
16K 1558.9 39.72
32K 1234.2 38.19
64K 863.5 35.87

TG ピーク(バーストスループット)

43.00 42.00 40.00 39.00 37.00

opencode に関する全体的な体験は、Sonnet + Claude Code にかなり近いです。100〜200k セッションは安定しています。

今週末はいろいろな並列数(コンカレンシー)の設定を試してみます。

このハードウェアで、もっと良い性能を見た人はいますか?

PS: 並列数(concurrency)= 2 がとても良く機能しました。生成は平均で 65 tps です。

投稿者: /u/val_in_tech
[リンク] [コメント]