Qwen3.5-35B が RTX4060 Ti 16GB で 60 tok/s 出ることを確認

Reddit r/LocalLLaMA / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、Windows 11 上で llama.cpp を調整し、RTX 4060 Ti 16GB で Qwen3.5-35B(GGUF, Q4_K_L)を 64k コンテキストで動作させることに成功したと報告しており、実際の使用では約 40〜60 tokens/秒(tok/s)を達成している。
  • 動作構成として、特定の `models.ini` プリセット(`c=65536`、`t=6`、`tb=8` を含み、さらに `n-cpu-moe=11` のような MoE/ルータ関連設定を含む)と、`llama-server.exe` の起動コマンドが提示されている。
  • ログ例では、プロンプト/生成サイズが異なる場合でもスループットが概ね ~41〜56 tok/s の範囲にとどまっていることが示されている(例:およそ 1050 トークンの生成や、より長い複数ターンの会話)。
  • 投稿では、起動ログが正しく見えても性能が悪い場合があること、またトップレベルのコマンドラインの推測よりも、より深い実行時パラメータ(例:`n_parallel`、`kv_unified`、コンテキストスロット/バッチ設定など)のほうが有益だと強調している。
  • 著者は、ピークのベンチマークスコアを最大化することよりも VRAM の圧力を管理することのほうが重要だと結論づけ、GPUごとの調整済みコンフィグをコミュニティで集約するデータベースが必要になる可能性を示唆している。

Windows 11(i7-13700F、64GB)上でRTX 4060 Ti 16GBを使い、unsloth Qwen3.5-35B-A3B-UD-Q4_K_L を64kコンテキストでうまく動かすために、llama.cppのチューニングにかなりの時間を費やしました。ようやくかなり安定した状態まで持っていけたので、今のところ自分にとってうまくいっている設定を共有したいと思います。

models.ini のエントリ:

[qwen3.5-35b-64k] model = Qwen3.5-35B-A3B-UD-Q4_K_L.gguf c = 65536 t = 6 tb = 8 n-cpu-moe = 11 b = 1024 ub = 512 parallel = 2 kv-unified = true 

ルータの開始コマンド

llama-server.exe --models-preset models.ini --models-max 1 --host 0.0.0.0 --webui-mcp-proxy --port 8080 

いま見えていること

このプリセットにすると、多くのタスクで40〜60 tok/sを安定して出せています。Docker Desktopがバックグラウンドで動いていても問題ありません。

ログからいくつか例を挙げると:

  • 1050トークンの生成で約56.41 tok/s
  • 1087トークンのプロンプトの後に続き(234トークン)を出すと約46.84 tok/s
  • チェックポイント復元後の続き(259トークン)で約44.97 tok/s
  • 1676トークンの生成で約41.21 tok/s
  • ずっと長い会話の中で1689トークンの生成をすると約42.71 tok/s

つまり「ベンチマーク用の空想的な数字」ではなく、16GBの4060 Tiで64kを扱ったときの、実際に使えるスループットです。

その他の観察

  • 起動ログが「正しく見えて」いても、実効的な実行の形が想像しているものと違うと、スループットが悪くなり得ます。
  • 見てみると、以下が効きました:
    • n_parallel
    • kv_unified
    • n_ctx_seq
    • n_ctx_slot
    • n_batch
    • n_ubatch
    それらは、コマンドライン上のトップレベルの指定を眺めているだけよりずっと役に立ちました。
  • VRAMの圧力を制御下に保つことは、「単発スコアの絶対最高値を絞り出す」ことよりも重要でした。

いろいろなカード向けのチューニング済みコンフィグのデータベースは見つけられませんでしたが、あったら便利なものかもしれません。

submitted by /u/Nutty_Praline404
[link] [comments]