RTX 5060 Ti 16GB ローカルLLMの所見: 30Bが依然として勝ち、35B UDは予想外に速い

Reddit r/LocalLLaMA / 2026/3/21

💬 オピニオンTools & Practical Usage

要点

  • llama.cpp/llama-server を用いて RTX 5060 Ti 16GB/RAM 32GB の環境でローカル LLM を実行する際の実用的な所見を記録しており、純粋なベンチマークよりもどのモデルパスが最も適しているかに焦点を当てている。
  • 驚くべき結論は、最も実用的な選択肢は最小でも最大のものでもなく、このハードウェア上で 30B のコーダー・プロファイルと 35B UD-Q2_K_XL パスが他の代替案を上回るということだった。
  • 著者は複数のモデルについて、サイズと量子化に関する具体的なベンチマークを示しており(例:4Bモデルで88 tok/s、30B UD-Q3_K_XL および 35B UD-Q2_K_XL で 76–80 tok/s)、モデル間の実用的なトレードオフを示している。
  • 実用的な推奨事項が示されている: デフォルトのコーディングモデルは Unsloth Qwen3-Coder-30B UD-Q3_K_XL、より高い文脈でのコーディングで最適なのは 96k tok/s の Unsloth 30B、最速の 35B は Unsloth Qwen3.5-35B UD-Q2_K_XL、35B Q4_K_M はこのカードでデフォルトには適さない。Windows と Ubuntu の結果は類似しているが、わずかな差がある。
RTX 5060 Ti 16GB ローカル LLM の所見: 30B が依然勝つ、35B UD は驚くほど速い

ここへ来て初めての投稿です。読書から大いに恩恵を受けています。5060ti 16gb を購入し、さまざまなモデルを試しました。

これは、このカード上で llama.cpp を使って何を動かすかを決めるための短い版であり、巨大なベンチマークのダンプではありません。

マシン:

  • RTX 5060 Ti 16 GB
  • DDR4 は現在 32 GB
  • llama-server b8373 (46dba9fce)

関連の起動設定:

  • 高速経路: fa=on, ngl=auto, threads=8
  • KV: -ctk q8_0 -ctv q8_0
  • 30B コーダー経路: jinja, reasoning-budget 0, reasoning-format none
  • 35B UD 経路: c=262144, n-cpu-moe=8
  • 35B Q4_K_M の安定化チューニング: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M

短い版:

  • 最適なデフォルトのコーディングモデル: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
  • より高いコンテキストでの最適なコーディングオプション: 同じ Unsloth 30B モデルを 96k
  • 高速な 35B コーディングオプション: Unsloth Qwen3.5-35B UD-Q2_K_XL
  • Unsloth Qwen3.5-35B Q4_K_M は興味深いですが、このカードのデフォルトとしてはまだ適切ではありません

私が最も驚いたことは、ここでの実用的な勝者が「小さい方が速い」だけではなかったという点です。この機械では、最も現実世界での選択肢は依然として 30B のコーダー・プロファイルと、古い 35B UD-Q2_K_XL の経路であり、より小さな 9B ルートや重い 35B Q4_K_M の実験ではありませんでした。

ローカルデータからの簡易なサイズ / 量のスナップショット:

  • Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
  • LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
  • Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
  • Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

Windows vs Ubuntu のショートリスト比較テスト:

  • 同じ20問
  • 同じ 32k コンテキスト
  • 同じ max_tokens=800

結果:

  • Unsloth Qwen3-Coder-30B UD-Q3_K_XL
    • Windows: 79.5 tok/s, 品質 7.94
    • Ubuntu: 76.3 tok/s, 品質 8.14
  • Unsloth Qwen3.5-35B UD-Q2_K_XL
    • Windows: 72.3 tok/s, 品質 7.40
    • Ubuntu: 80.1 tok/s, 品質 7.39
  • Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S
    • Windows: 19.9 tok/s, 品質 8.85
    • Ubuntu: ~20.0 tok/s, 品質 8.21

結論はかなり明快でした:

  • Unsloth Qwen 3.0 30B は、5060 Ti 16 GB に対する依然として最も安全な主推奨です
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL は、より多くのコンテキストが必要な場合のアップグレードパスとして依然として有効
  • Unsloth 35B UD-Q2_K_XL は依然として高速な 35B コーディングオプション
  • Unsloth 35B Q4_K_M は実験には有用ですが、このハードウェアで日常的に使うべきではありません
投稿者 /u/Imaginary-Anywhere23
[link] [comments]