Llama-serve.cp のデフォルトの動作では、複数のクライアントに対応するためにコンテキストサイズを 4 倍確保する可能性があります。もし VRAM が少ない環境で単一ユーザーとして使っているなら、コンテキスト長が長いほど VRAM 内の LM が小さくなり、その結果速度が低下することを知っているでしょう。
なので、-np1 で llama-server を起動し、場合によっては --fit-target 126 も追加してください
私の 12GB GPU で 60k コンテキストの場合、TPS が約 20% 増えました。
もう 1 つ: Firefox(または他のブラウザ)を使う場合は、ハードウェアアクセラレーションを無効にしてください:
- Settings > General > Performance に行きます。
- "Use recommended performance settings" のチェックを外します。
- "Use hardware acceleration when available" のチェックを外します。
- Firefox を再起動します。
Firefox はウェブページ用に VRAM の一部を使用し、確保します。LocalLM の提供(サービング)に手元のリソースをすべて使いたいかもしれません。
今は Qwen3.5-35B-A3B-IQ2_S を提供(サービング)しています
6700xt で毎秒 90.94 トークン、元は 66t/s でした。
[link] [comments]