RTX-5090 上での QWEN 3.5 27B による 2000 TPS

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

RTX-5090 上で official llama.cpp:server-cuda13 イメージを使用して、QWEN 3.5 27B (UD-Q5_K_XL.gguf) によるマークダウン文書分類タスクで約2000 TPSを達成したと報告。
10分間のウィンドウで、入力トークンを1,214,072件処理し、815出力トークンを生成し、320文書を分類。
速度向上は視覚コンポーネントを無効化、'No thinking' モードの使用、VRAM内での収まり、128k へのコンテキストサイズ削減、並列性をバッチサイズの8と等しく設定すること。
この設定は、バッチ内の各アイテムに16kのコンテキストを与え、大きな文書の1%未満を特別処理のために除外する。
著者は結果が状況依存で完全な評価ではないと述べているが、初期サンプルは非常に良い。

私は、マークダウン文書を分類する特定のタスクのために設定を調整してきました - 入力トークンが大量で、各文書が異なるため実際のキャッシュはほとんどなく、出力トークンは非常に少ないです。したがって、これらの数値は完全に状況依存ですが、もし誰か関心があるなら共有しようと思いました。

過去10分で、入力トークンを1,214,072件処理して、出力トークンを815件作成し、320文書を分類しました。 約2000 TPS

最初の反復ははるかに遅かったので、かなり驚いています。

いろいろな量子化設定とセットアップを試しましたが、これらの数値は unsloth/Qwen3.5-27B-UD-Q5_K_XL.gguf を official llama.cpp:server-cuda13 イメージを使用したものです。

高速化のために設定した主なポイントは次の通りです: