ヒント：llama-serverでは単一ユーザーの場合に -np 1 を使うのを忘れないでください

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

この記事では、llama-serverのデフォルト動作は複数クライアント対応のため、コンテキストサイズの約4倍ほどを割り当てる可能性があり、その結果、低VRAM環境ではパフォーマンスに悪影響が出ると説明しています。
単一ユーザー構成では、フラグ `-np 1` を付けて llama-server を起動することを推奨し、利用可能なメモリにモデルをより適合させるためにオプションで `--fit-target 126` を使うことも挙げています。
著者は、これらの起動パラメータ変更により12GB GPUで性能が向上したと報告しており（例：TPSが約20%増）、改善理由をVRAMのオーバーヘッド削減によるものだとしています。
さらに、ローカルLLMサービングのスループット改善につながる可能性として、Firefoxでブラウザのハードウェアアクセラレーションを無効化し、予約されたチャンク分のVRAMを解放するよう助言しています。
最後に、Qwen3.5-35Bのバリアントで提供（サービング）性能が改善し、6700XTで当初約66 tokens/secだったのが約90.94 tokens/secに到達したという逸話が紹介されています。

Llama-serve.cp のデフォルトの動作では、複数のクライアントに対応するためにコンテキストサイズを 4 倍確保する可能性があります。もし VRAM が少ない環境で単一ユーザーとして使っているなら、コンテキスト長が長いほど VRAM 内の LM が小さくなり、その結果速度が低下することを知っているでしょう。

なので、-np1 で llama-server を起動し、場合によっては --fit-target 126 も追加してください
私の 12GB GPU で 60k コンテキストの場合、TPS が約 20% 増えました。

もう 1 つ: Firefox（または他のブラウザ）を使う場合は、ハードウェアアクセラレーションを無効にしてください:

Settings > General > Performance に行きます。
"Use recommended performance settings" のチェックを外します。
"Use hardware acceleration when available" のチェックを外します。
Firefox を再起動します。

Firefox はウェブページ用に VRAM の一部を使用し、確保します。LocalLM の提供（サービング）に手元のリソースをすべて使いたいかもしれません。

今は Qwen3.5-35B-A3B-IQ2_S を提供（サービング）しています
6700xt で毎秒 90.94 トークン、元は 66t/s でした。

投稿者 /u/ea_man
[link] [comments]

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

人工知能とは何か？実際にはどのように動くのか？

Dev.to

Forge – 開発チームの会話を構造化された意思決定に変える

Dev.to

Cortex – 開発者のためのローカル・ファースト・ナレッジグラフ

Dev.to

ヒント：llama-serverでは単一ユーザーの場合に -np 1 を使うのを忘れないでください

要点

関連記事

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

人工知能とは何か？実際にはどのように動くのか？

Forge – 開発チームの会話を構造化された意思決定に変える

Cortex – 開発者のためのローカル・ファースト・ナレッジグラフ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer