| モデルについて: 評価のアプローチ: 合計1,264サンプルです。 評価結果: ハードウェア: 32 vCPU、メモリ125GB。GPUなし。 これの意味は? 全体として、CPU上で量子化して動かすアクティブ3B MoEモデルとしては、堅実な結果です。 この評価一式は、利用可能なCPUシステムで実行できるさまざまな量子化バージョンを調査した Neo AI Engineer を使って実施され、その後、正しいチャットテンプレートを使用して、3つのベンチマーク用の統合された評価ハーネスを構築し、入念なレビューの後に最終結果を報告しました。 [link] [comments] |
Qwen 3.6 35B A3B Q4_K_M 量子化モデルの評価
Reddit r/LocalLLaMA / 2026/4/18
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この投稿では、UnslothのQ4_K_M量子化GGUF版のQwen 3.6 35B(3BアクティブA3B MoE)を対象に、CPUのみでllama-cpp-pythonを使って評価を行っています。
- テストは3つのベンチマーク(HumanEval=コード生成、HellaSwag=常識推論、BFCL=関数呼び出し)で実施され、合計1,264サンプルを使用しました。
- 結果はHumanEval 47.56%、HellaSwag 74.30%、BFCL 46.00%で、コードや関数呼び出しよりも常識タスクの方が得意であることが示されています。
- ハードウェア条件(32 vCPU、125GB RAM、GPUなし)では約22 tokens/秒で動作し、CPU上で動くアクティブ3B MoEモデルとしては「堅実な結果」とされています。
- Neo AI Engineerを用いて、利用可能なCPU環境に適した量子化バージョン選定や、3ベンチマークを統合した評価ハーネス構築まで実施し、レビュー後に最終結果を報告しています。




