AI Navigate

RTX-5090 上での QWEN 3.5 27B による 2000 TPS

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • RTX-5090 上で official llama.cpp:server-cuda13 イメージを使用して、QWEN 3.5 27B (UD-Q5_K_XL.gguf) によるマークダウン文書分類タスクで約2000 TPSを達成したと報告。
  • 10分間のウィンドウで、入力トークンを1,214,072件処理し、815出力トークンを生成し、320文書を分類。
  • 速度向上は視覚コンポーネントを無効化、'No thinking' モードの使用、VRAM内での収まり、128k へのコンテキストサイズ削減、並列性をバッチサイズの8と等しく設定すること。
  • この設定は、バッチ内の各アイテムに16kのコンテキストを与え、大きな文書の1%未満を特別処理のために除外する。
  • 著者は結果が状況依存で完全な評価ではないと述べているが、初期サンプルは非常に良い。

私は、マークダウン文書を分類する特定のタスクのために設定を調整してきました - 入力トークンが大量で、各文書が異なるため実際のキャッシュはほとんどなく、出力トークンは非常に少ないです。したがって、これらの数値は完全に状況依存ですが、もし誰か関心があるなら共有しようと思いました。

過去10分で、入力トークンを1,214,072件処理して、出力トークンを815件作成し、320文書を分類しました。 約2000 TPS

最初の反復ははるかに遅かったので、かなり驚いています。

いろいろな量子化設定とセットアップを試しましたが、これらの数値は unsloth/Qwen3.5-27B-UD-Q5_K_XL.gguf を official llama.cpp:server-cuda13 イメージを使用したものです。

高速化のために設定した主なポイントは次の通りです:

  • 視覚機能/mmproj はロードされていません。これは視覚用ですが、このユースケースには不要です。
  • 「No thinking」モードを使用していることを確認しました。
  • 推論時を含むコンテキストを含め、余裕のあるVRAM にすべて収まるようにしました。
  • コンテキストサイズを128kに下げました(前述を参照)
  • 並列度をバッチサイズの8と同じに設定しました。

これにより、バッチ内の各リクエストは16kのコンテキストを扱うことができ、大きな文書のうち1%未満を特別処理のために除外します。

まだ全評価は実施していませんが、サンプルは非常に良さそうです。

投稿者 /u/awitod
[リンク] [コメント]