RTX 5060 Ti 16GB ローカルLLMの所見: 30Bが依然として勝ち、35B UDは予想外に速い

Reddit r/LocalLLaMA / 2026/3/21

💬 オピニオンTools & Practical Usage

原文を読む →

共有:

要点

llama.cpp/llama-server を用いて RTX 5060 Ti 16GB／RAM 32GB の環境でローカル LLM を実行する際の実用的な所見を記録しており、純粋なベンチマークよりもどのモデルパスが最も適しているかに焦点を当てている。
驚くべき結論は、最も実用的な選択肢は最小でも最大のものでもなく、このハードウェア上で 30B のコーダー・プロファイルと 35B UD-Q2_K_XL パスが他の代替案を上回るということだった。
著者は複数のモデルについて、サイズと量子化に関する具体的なベンチマークを示しており（例：4Bモデルで88 tok/s、30B UD-Q3_K_XL および 35B UD-Q2_K_XL で 76–80 tok/s）、モデル間の実用的なトレードオフを示している。
実用的な推奨事項が示されている: デフォルトのコーディングモデルは Unsloth Qwen3-Coder-30B UD-Q3_K_XL、より高い文脈でのコーディングで最適なのは 96k tok/s の Unsloth 30B、最速の 35B は Unsloth Qwen3.5-35B UD-Q2_K_XL、35B Q4_K_M はこのカードでデフォルトには適さない。Windows と Ubuntu の結果は類似しているが、わずかな差がある。

RTX 5060 Ti 16GB ローカル LLM の所見: 30B が依然勝つ、35B UD は驚くほど速い

ここへ来て初めての投稿です。読書から大いに恩恵を受けています。5060ti 16gb を購入し、さまざまなモデルを試しました。

これは、このカード上で llama.cpp を使って何を動かすかを決めるための短い版であり、巨大なベンチマークのダンプではありません。

マシン:

RTX 5060 Ti 16 GB
DDR4 は現在 32 GB
llama-server b8373 (46dba9fce)

関連の起動設定:

高速経路: fa=on, ngl=auto, threads=8
KV: -ctk q8_0 -ctv q8_0
30B コーダー経路: jinja, reasoning-budget 0, reasoning-format none
35B UD 経路: c=262144, n-cpu-moe=8
35B Q4_K_M の安定化チューニング: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M

短い版:

最適なデフォルトのコーディングモデル: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
より高いコンテキストでの最適なコーディングオプション: 同じ Unsloth 30B モデルを 96k で
高速な 35B コーディングオプション: Unsloth Qwen3.5-35B UD-Q2_K_XL
Unsloth Qwen3.5-35B Q4_K_M は興味深いですが、このカードのデフォルトとしてはまだ適切ではありません

私が最も驚いたことは、ここでの実用的な勝者が「小さい方が速い」だけではなかったという点です。この機械では、最も現実世界での選択肢は依然として 30B のコーダー・プロファイルと、古い 35B UD-Q2_K_XL の経路であり、より小さな 9B ルートや重い 35B Q4_K_M の実験ではありませんでした。

ローカルデータからの簡易なサイズ / 量のスナップショット:

Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

Windows vs Ubuntu のショートリスト比較テスト:

同じ20問
同じ 32k コンテキスト
同じ max_tokens=800

結果:

Unsloth Qwen3-Coder-30B UD-Q3_K_XL
- Windows: 79.5 tok/s, 品質 7.94
- Ubuntu: 76.3 tok/s, 品質 8.14
Unsloth Qwen3.5-35B UD-Q2_K_XL
- Windows: 72.3 tok/s, 品質 7.40
- Ubuntu: 80.1 tok/s, 品質 7.39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S
- Windows: 19.9 tok/s, 品質 8.85
- Ubuntu: ~20.0 tok/s, 品質 8.21

結論はかなり明快でした:

Unsloth Qwen 3.0 30B は、5060 Ti 16 GB に対する依然として最も安全な主推奨です
Unsloth Qwen 3.5 35B UD-Q2_K_XL は、より多くのコンテキストが必要な場合のアップグレードパスとして依然として有効
Unsloth 35B UD-Q2_K_XL は依然として高速な 35B コーディングオプション
Unsloth 35B Q4_K_M は実験には有用ですが、このハードウェアで日常的に使うべきではありません

投稿者 /u/Imaginary-Anywhere23
[link] [comments]

パイプラインを使用してワークフローを調整する

Azure OpenAI Service ドキュメント

Speculative Decodingで27Bが逆に遅くなった

Qiita

Sakana ChatのフェッチをサーバーログとASN照合で特定した

Qiita

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

note

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

note

RTX 5060 Ti 16GB ローカルLLMの所見: 30Bが依然として勝ち、35B UDは予想外に速い

要点

関連記事

パイプラインを使用してワークフローを調整する

Speculative Decodingで27Bが逆に遅くなった

Sakana ChatのフェッチをサーバーログとASN照合で特定した

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

パイプラインを使用してワークフローを調整する

Speculative Decodingで27Bが逆に遅くなった

Sakana ChatのフェッチをサーバーログとASN照合で特定した

スマホでポチポチ？ 「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

​AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ