2日前に、u/nickl によるとてもクールな投稿がありました:
https://reddit.com/r/LocalLLaMA/comments/1s7r9wu/
ぜひチェックすることを強くおすすめします!
私は、RTX 5080に収まるローカルモデルをいくつか使ってこのベンチマークを回しました。その一部はRAMに部分的にオフロードしています(96GBありますが、64GBあればほとんどは収まるはずです)。
結果:
24: unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL 23: bartowski/Qwen_Qwen3.5-27B-GGUF:IQ4_XS 23: unsloth/Qwen3.5-122B-A10B-GGUF:UD-IQ3_XXS 22: unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q6_K_XL 22: mradermacher/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-i1-GGUF:Q3_K_M 22: Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF:Q4_K_M 21: unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_S 20: unsloth/Qwen3-Coder-Next-GGUF:UD-Q5_K_XL 20: mradermacher/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-i1-GGUF:Q6_K 19: unsloth/GLM-4.7-Flash-GGUF:UD-Q6_K_XL 18: unsloth/GLM-4.5-Air-GGUF:Q5_K_M 18: bartowski/nvidia_Nemotron-Cascade-2-30B-A3B-GGUF:Q6_K_L 17: Jackrong/Qwopus3.5-9B-v3-GGUF:Q8_0 16: unsloth/Qwen3-Coder-Next-GGUF:UD-Q4_K_XL 16: byteshape/Devstral-Small-2-24B-Instruct-2512-GGUF:IQ3_S 16: mradermacher/Qwen3.5-9B-Claude-4.6-HighIQ-THINKING-i1-GGUF:Q6_K 14: mradermacher/Qwen3.5-9B-Claude-4.6-HighIQ-INSTRUCT-i1-GGUF:Q6_K 14: unsloth/GLM-4.6V-GGUF:Q3_K_S 5: bartowski/Tesslate_OmniCoder-9B-GGUF:Q6_K_L 5: unsloth/Qwen3.5-9B-GGUF:UD-Q6_K_XL 最大の驚きは正直、Qwen3.5-9B-Claude-4.6-HighIQ-THINKING です。Qwen3.5-9Bで5つのグリーンテストから16のグリーンテストに伸びました。Qwen3.5-9Bのほとんどのエラーは、正しいフォーマットでツールを呼び出せないことに行き着いていました。これだけ小さいのに、かなり信頼性の高い微調整(finetune)だと思います。
Qwen3.5-122B-A10Bは、依然として16GB GPUの王様です。専門家(experts)をRAMにオフロードできるからです。速度は完璧ではありませんが品質は素晴らしく、VRAMにかなり大きなコンテキストも収められます。Q4_K_XLは約68GBのRAM、IQ3_XXSは約33GBのRAMを使用するので、小さい量子化(quant)なら64GBのシステムRAMで使えます。
ただし注意点があります。これらのベンチマークは、主にかなり隔離されたSQL呼び出しをテストしています。ツール呼び出しがあっても、2つのモデルを比較するのに便利な素早いベンチマークですが、大きいモデルが優位に出てくるような、より大規模なコードベースのコンテキスト理解を代表するものではありません。
編集:9BのQwopusモデルを追加しました
[link] [comments]




