私は、マークダウン文書を分類する特定のタスクのために設定を調整してきました - 入力トークンが大量で、各文書が異なるため実際のキャッシュはほとんどなく、出力トークンは非常に少ないです。したがって、これらの数値は完全に状況依存ですが、もし誰か関心があるなら共有しようと思いました。
過去10分で、入力トークンを1,214,072件処理して、出力トークンを815件作成し、320文書を分類しました。 約2000 TPS
最初の反復ははるかに遅かったので、かなり驚いています。
いろいろな量子化設定とセットアップを試しましたが、これらの数値は unsloth/Qwen3.5-27B-UD-Q5_K_XL.gguf を official llama.cpp:server-cuda13 イメージを使用したものです。
高速化のために設定した主なポイントは次の通りです:
- 視覚機能/mmproj はロードされていません。これは視覚用ですが、このユースケースには不要です。
- 「No thinking」モードを使用していることを確認しました。
- 推論時を含むコンテキストを含め、余裕のあるVRAM にすべて収まるようにしました。
- コンテキストサイズを128kに下げました(前述を参照)
- 並列度をバッチサイズの8と同じに設定しました。
これにより、バッチ内の各リクエストは16kのコンテキストを扱うことができ、大きな文書のうち1%未満を特別処理のために除外します。
まだ全評価は実施していませんが、サンプルは非常に良さそうです。
[リンク] [コメント]




