Qwen3.5-35B が RTX4060 Ti 16GB で 60 tok/s 出ることを確認

Reddit r/LocalLLaMA / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

著者は、Windows 11 上で llama.cpp を調整し、RTX 4060 Ti 16GB で Qwen3.5-35B（GGUF, Q4_K_L）を 64k コンテキストで動作させることに成功したと報告しており、実際の使用では約 40〜60 tokens/秒（tok/s）を達成している。
動作構成として、特定の `models.ini` プリセット（`c=65536`、`t=6`、`tb=8` を含み、さらに `n-cpu-moe=11` のような MoE／ルータ関連設定を含む）と、`llama-server.exe` の起動コマンドが提示されている。
ログ例では、プロンプト／生成サイズが異なる場合でもスループットが概ね ~41〜56 tok/s の範囲にとどまっていることが示されている（例：およそ 1050 トークンの生成や、より長い複数ターンの会話）。
投稿では、起動ログが正しく見えても性能が悪い場合があること、またトップレベルのコマンドラインの推測よりも、より深い実行時パラメータ（例：`n_parallel`、`kv_unified`、コンテキストスロット／バッチ設定など）のほうが有益だと強調している。
著者は、ピークのベンチマークスコアを最大化することよりも VRAM の圧力を管理することのほうが重要だと結論づけ、GPUごとの調整済みコンフィグをコミュニティで集約するデータベースが必要になる可能性を示唆している。

Windows 11（i7-13700F、64GB）上でRTX 4060 Ti 16GBを使い、unsloth Qwen3.5-35B-A3B-UD-Q4_K_L を64kコンテキストでうまく動かすために、llama.cppのチューニングにかなりの時間を費やしました。ようやくかなり安定した状態まで持っていけたので、今のところ自分にとってうまくいっている設定を共有したいと思います。

models.ini のエントリ:

[qwen3.5-35b-64k] model = Qwen3.5-35B-A3B-UD-Q4_K_L.gguf c = 65536 t = 6 tb = 8 n-cpu-moe = 11 b = 1024 ub = 512 parallel = 2 kv-unified = true

ルータの開始コマンド

llama-server.exe --models-preset models.ini --models-max 1 --host 0.0.0.0 --webui-mcp-proxy --port 8080

いま見えていること

このプリセットにすると、多くのタスクで40〜60 tok/sを安定して出せています。Docker Desktopがバックグラウンドで動いていても問題ありません。

ログからいくつか例を挙げると:

1050トークンの生成で約56.41 tok/s
1087トークンのプロンプトの後に続き（234トークン）を出すと約46.84 tok/s
チェックポイント復元後の続き（259トークン）で約44.97 tok/s
1676トークンの生成で約41.21 tok/s
ずっと長い会話の中で1689トークンの生成をすると約42.71 tok/s

つまり「ベンチマーク用の空想的な数字」ではなく、16GBの4060 Tiで64kを扱ったときの、実際に使えるスループットです。

その他の観察

起動ログが「正しく見えて」いても、実効的な実行の形が想像しているものと違うと、スループットが悪くなり得ます。
見てみると、以下が効きました:
- n_parallel
- kv_unified
- n_ctx_seq
- n_ctx_slot
- n_batch
- n_ubatch
それらは、コマンドライン上のトップレベルの指定を眺めているだけよりずっと役に立ちました。
VRAMの圧力を制御下に保つことは、「単発スコアの絶対最高値を絞り出す」ことよりも重要でした。

いろいろなカード向けのチューニング済みコンフィグのデータベースは見つけられませんでしたが、あったら便利なものかもしれません。

submitted by /u/Nutty_Praline404
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/16Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

Qwen3.5-35B が RTX4060 Ti 16GB で 60 tok/s 出ることを確認

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減