広告

Nick LothianのSQLベンチマークを使って、RTX 5080 16GBで動かせる18モデルをベンチマーク

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Nick LothianのSQLベンチマークを用いて、RTX 5080 16GB上で動かせるローカルLLMモデル18件のベンチマーク結果を、GGUF量子化の違いごとにまとめている。
  • 最大のサプライズとして、Qwen3.5-9B-Claude-4.6-HighIQ-THINKINGが挙げられており、「green tests」が5から16へと大きく改善したほか、より小さいQwen3.5-9B版と比べてツール呼び出しが異常に信頼性高いことが示されている。
  • Qwen3.5-122B-A10Bは、16GB GPUではトップのパフォーマーだとされており、モデルの「experts」をシステムRAMにオフロードできるため、高品質を実現できる一方で速度は不完全(理想的でない)になるという代償がある。
  • 著者は実用的なRAM目安も提示している。Q4_K_XLモデルは約68GBのRAMが必要になり得る一方、IQ3_XXSは約33GBのRAMで済むため、64GBのシステムRAMならより小さい量子化でも現実的に運用できる。
  • ベンチマークは、隔離されたSQL/ツール呼び出しテストとして位置づけられているため、著者は、より大規模なコードベースや、より広い文脈理解を含む実環境の性能を完全には反映しない可能性がある点に注意を促している。

2日前に、u/nickl によるとてもクールな投稿がありました:

https://reddit.com/r/LocalLLaMA/comments/1s7r9wu/

ぜひチェックすることを強くおすすめします!

私は、RTX 5080に収まるローカルモデルをいくつか使ってこのベンチマークを回しました。その一部はRAMに部分的にオフロードしています(96GBありますが、64GBあればほとんどは収まるはずです)。

結果:

24: unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL      23: bartowski/Qwen_Qwen3.5-27B-GGUF:IQ4_XS      23: unsloth/Qwen3.5-122B-A10B-GGUF:UD-IQ3_XXS      22: unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q6_K_XL      22: mradermacher/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-i1-GGUF:Q3_K_M      22: Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF:Q4_K_M      21: unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_S      20: unsloth/Qwen3-Coder-Next-GGUF:UD-Q5_K_XL      20: mradermacher/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-i1-GGUF:Q6_K      19: unsloth/GLM-4.7-Flash-GGUF:UD-Q6_K_XL      18: unsloth/GLM-4.5-Air-GGUF:Q5_K_M      18: bartowski/nvidia_Nemotron-Cascade-2-30B-A3B-GGUF:Q6_K_L      17: Jackrong/Qwopus3.5-9B-v3-GGUF:Q8_0      16: unsloth/Qwen3-Coder-Next-GGUF:UD-Q4_K_XL      16: byteshape/Devstral-Small-2-24B-Instruct-2512-GGUF:IQ3_S      16: mradermacher/Qwen3.5-9B-Claude-4.6-HighIQ-THINKING-i1-GGUF:Q6_K      14: mradermacher/Qwen3.5-9B-Claude-4.6-HighIQ-INSTRUCT-i1-GGUF:Q6_K      14: unsloth/GLM-4.6V-GGUF:Q3_K_S      5: bartowski/Tesslate_OmniCoder-9B-GGUF:Q6_K_L      5: unsloth/Qwen3.5-9B-GGUF:UD-Q6_K_XL      

最大の驚きは正直、Qwen3.5-9B-Claude-4.6-HighIQ-THINKING です。Qwen3.5-9Bで5つのグリーンテストから16のグリーンテストに伸びました。Qwen3.5-9Bのほとんどのエラーは、正しいフォーマットでツールを呼び出せないことに行き着いていました。これだけ小さいのに、かなり信頼性の高い微調整(finetune)だと思います。

Qwen3.5-122B-A10Bは、依然として16GB GPUの王様です。専門家(experts)をRAMにオフロードできるからです。速度は完璧ではありませんが品質は素晴らしく、VRAMにかなり大きなコンテキストも収められます。Q4_K_XLは約68GBのRAM、IQ3_XXSは約33GBのRAMを使用するので、小さい量子化(quant)なら64GBのシステムRAMで使えます。

ただし注意点があります。これらのベンチマークは、主にかなり隔離されたSQL呼び出しをテストしています。ツール呼び出しがあっても、2つのモデルを比較するのに便利な素早いベンチマークですが、大きいモデルが優位に出てくるような、より大規模なコードベースのコンテキスト理解を代表するものではありません。

編集:9BのQwopusモデルを追加しました

submitted by /u/grumd
[link] [comments]

広告