Windows 11(i7-13700F、64GB)上でRTX 4060 Ti 16GBを使い、unsloth Qwen3.5-35B-A3B-UD-Q4_K_L を64kコンテキストでうまく動かすために、llama.cppのチューニングにかなりの時間を費やしました。ようやくかなり安定した状態まで持っていけたので、今のところ自分にとってうまくいっている設定を共有したいと思います。
models.ini のエントリ:
[qwen3.5-35b-64k] model = Qwen3.5-35B-A3B-UD-Q4_K_L.gguf c = 65536 t = 6 tb = 8 n-cpu-moe = 11 b = 1024 ub = 512 parallel = 2 kv-unified = true ルータの開始コマンド
llama-server.exe --models-preset models.ini --models-max 1 --host 0.0.0.0 --webui-mcp-proxy --port 8080 いま見えていること
このプリセットにすると、多くのタスクで40〜60 tok/sを安定して出せています。Docker Desktopがバックグラウンドで動いていても問題ありません。
ログからいくつか例を挙げると:
- 1050トークンの生成で約56.41 tok/s
- 1087トークンのプロンプトの後に続き(234トークン)を出すと約46.84 tok/s
- チェックポイント復元後の続き(259トークン)で約44.97 tok/s
- 1676トークンの生成で約41.21 tok/s
- ずっと長い会話の中で1689トークンの生成をすると約42.71 tok/s
つまり「ベンチマーク用の空想的な数字」ではなく、16GBの4060 Tiで64kを扱ったときの、実際に使えるスループットです。
その他の観察
- 起動ログが「正しく見えて」いても、実効的な実行の形が想像しているものと違うと、スループットが悪くなり得ます。
- 見てみると、以下が効きました:
n_parallelkv_unifiedn_ctx_seqn_ctx_slotn_batchn_ubatch
- VRAMの圧力を制御下に保つことは、「単発スコアの絶対最高値を絞り出す」ことよりも重要でした。
いろいろなカード向けのチューニング済みコンフィグのデータベースは見つけられませんでしたが、あったら便利なものかもしれません。
[link] [comments]




