ヒント:llama-serverでは単一ユーザーの場合に -np 1 を使うのを忘れないでください

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事では、llama-serverのデフォルト動作は複数クライアント対応のため、コンテキストサイズの約4倍ほどを割り当てる可能性があり、その結果、低VRAM環境ではパフォーマンスに悪影響が出ると説明しています。
  • 単一ユーザー構成では、フラグ `-np 1` を付けて llama-server を起動することを推奨し、利用可能なメモリにモデルをより適合させるためにオプションで `--fit-target 126` を使うことも挙げています。
  • 著者は、これらの起動パラメータ変更により12GB GPUで性能が向上したと報告しており(例:TPSが約20%増)、改善理由をVRAMのオーバーヘッド削減によるものだとしています。
  • さらに、ローカルLLMサービングのスループット改善につながる可能性として、Firefoxでブラウザのハードウェアアクセラレーションを無効化し、予約されたチャンク分のVRAMを解放するよう助言しています。
  • 最後に、Qwen3.5-35Bのバリアントで提供(サービング)性能が改善し、6700XTで当初約66 tokens/secだったのが約90.94 tokens/secに到達したという逸話が紹介されています。

Llama-serve.cp のデフォルトの動作では、複数のクライアントに対応するためにコンテキストサイズを 4 倍確保する可能性があります。もし VRAM が少ない環境で単一ユーザーとして使っているなら、コンテキスト長が長いほど VRAM 内の LM が小さくなり、その結果速度が低下することを知っているでしょう。

なので、-np1 で llama-server を起動し、場合によっては --fit-target 126 も追加してください
私の 12GB GPU で 60k コンテキストの場合、TPS が約 20% 増えました。

もう 1 つ: Firefox(または他のブラウザ)を使う場合は、ハードウェアアクセラレーションを無効にしてください:

  • Settings > General > Performance に行きます。
  • "Use recommended performance settings" のチェックを外します。
  • "Use hardware acceleration when available" のチェックを外します。
  • Firefox を再起動します。

Firefox はウェブページ用に VRAM の一部を使用し、確保します。LocalLM の提供(サービング)に手元のリソースをすべて使いたいかもしれません。

今は Qwen3.5-35B-A3B-IQ2_S を提供(サービング)しています
6700xt で毎秒 90.94 トークン、元は 66t/s でした。

投稿者 /u/ea_man
[link] [comments]