GLM 5.1をローカルで動かす：40TPS、2000+PP/s

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

著者は、GLM 5.1のreap-ed nvfp4版をローカルで安定稼働させ、350W制限の4基のRTX 6000 Pro上で高速な推論ができたと報告している。
スループットはコンテキスト長ごとに整理されており、prefillのトークン処理能力（PP@4096）はコンテキストが長くなるほど低下する一方、生成側のスループット（TG@512）は比較的安定しつつ長いコンテキストで徐々に落ち込むとしている。
生成のピーク（バースト）スループットは低40tps台（約43がピーク）で、opencodeによる体感はSonnet＋Claude Codeにかなり近いと述べている。
設定は10万〜20万セッションを安定して処理できるとされ、著者は週末に並列度（コンカレンシー）の別設定を試す予定で、並列度=2では生成が平均約65tpsだったと付記している。
投稿では、同じハードでより良い性能が出せた人の情報提供を呼びかけている。

いくつかのsglangパッチ適用と、数え切れないほどの実験の末、4 x RTX 6000 Pro（350Wに制限）で reap-ed nvfp4 バージョンを安定して、しかも高速に動作させることができました。性能と品質にとても満足しています。推論ソフトウェアは、これらのカードに対してまだ最適化不足です。今年または来年の初めには、その真のポテンシャルが明らかになるのではないかと思います。

コンテキスト深度別のスループット

プリフィル	PP@4096	TG@512
0	2229.0	42.03
4K	1943.6	41.41
16K	1558.9	39.72
32K	1234.2	38.19
64K	863.5	35.87

TG ピーク（バーストスループット）

43.00 42.00 40.00 39.00 37.00

opencode に関する全体的な体験は、Sonnet + Claude Code にかなり近いです。100〜200k セッションは安定しています。

今週末はいろいろな並列数（コンカレンシー）の設定を試してみます。

このハードウェアで、もっと良い性能を見た人はいますか？

PS: 並列数（concurrency）= 2 がとても良く機能しました。生成は平均で 65 tps です。

投稿者: /u/val_in_tech
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/26Dailyインサイトを見る →

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

日経XTECH

「NVIDIA、マーベルに出資で光電融合強化」など5本

日経XTECH

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

日経XTECH

アクセンチュアとSAPがERP導入で協業、中堅以下の未開拓顧客へAI訴求

日経XTECH

大手IT企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

Dev.to

GLM 5.1をローカルで動かす：40TPS、2000+PP/s

要点

コンテキスト深度別のスループット

TG ピーク（バーストスループット）

💡 この記事が使われたインサイト

関連記事

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

「NVIDIA、マーベルに出資で光電融合強化」など5本

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

アクセンチュアとSAPがERP導入で協業、中堅以下の未開拓顧客へAI訴求

大手IT企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer