Qwen 3.6 35B A3B Q4_K_M 量子化モデルの評価

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この投稿では、UnslothのQ4_K_M量子化GGUF版のQwen 3.6 35B(3BアクティブA3B MoE)を対象に、CPUのみでllama-cpp-pythonを使って評価を行っています。
  • テストは3つのベンチマーク(HumanEval=コード生成、HellaSwag=常識推論、BFCL=関数呼び出し)で実施され、合計1,264サンプルを使用しました。
  • 結果はHumanEval 47.56%、HellaSwag 74.30%、BFCL 46.00%で、コードや関数呼び出しよりも常識タスクの方が得意であることが示されています。
  • ハードウェア条件(32 vCPU、125GB RAM、GPUなし)では約22 tokens/秒で動作し、CPU上で動くアクティブ3B MoEモデルとしては「堅実な結果」とされています。
  • Neo AI Engineerを用いて、利用可能なCPU環境に適した量子化バージョン選定や、3ベンチマークを統合した評価ハーネス構築まで実施し、レビュー後に最終結果を報告しています。
Qwen 3.6 35B A3B Q4_K_M quant evaluation

モデルについて:
全パラメータ35B、アクティブ3B(A3B)のモダン・オブ・エキスパーツ(Mixture of Experts)アーキテクチャの混合です。

評価のアプローチ:
Unsloth から取得した Q4_K_M 量子化 GGUF を使用しました。llama-cpp-python を使って CPU 上で実行し、3つの標準ベンチマークでテストしました:
- HumanEval(コード生成)、
- HellaSwag(常識推論)、および
- BFCL(関数呼び出し)。

合計1,264サンプルです。

評価結果:
- HumanEval: 47.56%(78/164)
- HellaSwag: 74.30%(743/1000)
- BFCL: 46.00%(46/100)

ハードウェア:

32 vCPU、メモリ125GB。GPUなし。

これの意味は?
Q4_K_M の量子化バリアントは CPU 上で 22 tokens/sec で動作し、十分な速度を出しつつ、常識推論では74%と最も良い成績を示します。コード生成と関数呼び出しは、このバリアントにとっては難しいタスクで、得点は40台半ばに着地します。

全体として、CPU上で量子化して動かすアクティブ3B MoEモデルとしては、堅実な結果です。

この評価一式は、利用可能なCPUシステムで実行できるさまざまな量子化バージョンを調査した Neo AI Engineer を使って実施され、その後、正しいチャットテンプレートを使用して、3つのベンチマーク用の統合された評価ハーネスを構築し、入念なレビューの後に最終結果を報告しました。

提出者: /u/gvij
[link] [comments]