| ここへ来て初めての投稿です。読書から大いに恩恵を受けています。5060ti 16gb を購入し、さまざまなモデルを試しました。 これは、このカード上で llama.cpp を使って何を動かすかを決めるための短い版であり、巨大なベンチマークのダンプではありません。 マシン:
関連の起動設定:
短い版:
私が最も驚いたことは、ここでの実用的な勝者が「小さい方が速い」だけではなかったという点です。この機械では、最も現実世界での選択肢は依然として ローカルデータからの簡易なサイズ / 量のスナップショット:
Windows vs Ubuntu のショートリスト比較テスト:
結果:
結論はかなり明快でした:
[link] [comments] |
RTX 5060 Ti 16GB ローカルLLMの所見: 30Bが依然として勝ち、35B UDは予想外に速い
Reddit r/LocalLLaMA / 2026/3/21
💬 オピニオンTools & Practical Usage
要点
- llama.cpp/llama-server を用いて RTX 5060 Ti 16GB/RAM 32GB の環境でローカル LLM を実行する際の実用的な所見を記録しており、純粋なベンチマークよりもどのモデルパスが最も適しているかに焦点を当てている。
- 驚くべき結論は、最も実用的な選択肢は最小でも最大のものでもなく、このハードウェア上で 30B のコーダー・プロファイルと 35B UD-Q2_K_XL パスが他の代替案を上回るということだった。
- 著者は複数のモデルについて、サイズと量子化に関する具体的なベンチマークを示しており(例:4Bモデルで88 tok/s、30B UD-Q3_K_XL および 35B UD-Q2_K_XL で 76–80 tok/s)、モデル間の実用的なトレードオフを示している。
- 実用的な推奨事項が示されている: デフォルトのコーディングモデルは Unsloth Qwen3-Coder-30B UD-Q3_K_XL、より高い文脈でのコーディングで最適なのは 96k tok/s の Unsloth 30B、最速の 35B は Unsloth Qwen3.5-35B UD-Q2_K_XL、35B Q4_K_M はこのカードでデフォルトには適さない。Windows と Ubuntu の結果は類似しているが、わずかな差がある。

