Qwen 3.6 27B：BF16とQ4_K_M、Q8_0のGGUFを評価（llama-cpp-python）

Reddit r/LocalLLaMA / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この記事は、Neo AI Engineer による llama-cpp-python を用いた評価として、Qwen 3.6 27B の BF16 と GGUF 量子化版（Q4_K_M、Q8_0）の性能を比較しています。
HumanEval、HellaSwag、BFCL（ファンクションコーリング）において、BF16 が総合的に最良の精度を示す一方、Q4_K_M は実用面でより近い代替手段になっています。
Q4_K_M は BF16 とほぼ同等の BFCL スコア（63.0〜63.25%）を保ちながら、ピークRAMを 54GB（BF16）から 28GB に削減し、モデルファイルも 16.8GB に縮小しています。
今回の実行では Q8_0 は振るわず、Q4_K_M より遅く、ピークRAMも多く消費しつつ、HumanEval でわずかに改善があるものの HellaSwag は低い結果でした。
ローカル/CPU 配備では、コード生成中心のワークロードでない限り Q4_K_M を推奨し、最高品質を狙う場合は BF16 を選ぶべきだと述べています。

Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation

Neo AI Engineer を使い、llama-cpp-python で BF16、Q4_K_M、Q8_0 の 3 つの GGUF 量子化バリアントにおける Qwen 3.6 27B を評価しました。

使用したベンチマーク:

HumanEval: コード生成
HellaSwag: コモンセンス推論
BFCL: ファンクションコーリング

総サンプル数:

HumanEval: 164
HellaSwag: 100
BFCL: 400

結果:

BF16

HumanEval: 56.10%（92/164）
HellaSwag: 90.00%（90/100）
BFCL: 63.25%（253/400）
平均精度: 69.78%
スループット: 15.5 tok/s
ピーク RAM: 54 GB
モデルサイズ: 53.8 GB

Q4_K_M

HumanEval: 50.61%（83/164）
HellaSwag: 86.00%（86/100）
BFCL: 63.00%（252/400）
平均精度: 66.54%
スループット: 22.5 tok/s
ピーク RAM: 28 GB
モデルサイズ: 16.8 GB

Q8_0

HumanEval: 52.44%（86/164）
HellaSwag: 83.00%（83/100）
BFCL: 63.00%（252/400）
平均精度: 66.15%
スループット: 18.0 tok/s
ピーク RAM: 42 GB
モデルサイズ: 28.6 GB

際立った点:

Q4_K_M は、この中では最も実用的なバリアントのように見えます。BFCL は BF16 とほぼ同じまま、HumanEval では約 5.5 ポイント落ちますが、HellaSwag では BF16 に対してまだ 4 ポイントしか遅れていません。

そのトレードオフはかなり良好です:

BF16 より 1.45 倍速い
ピーク RAM が 48% 少ない
モデルファイルが 68.8% 小さい
ファンクションコーリングのスコアがほぼ同一

この実行では Q8_0 は少し物足りない結果でした。HumanEval は Q4_K_M より約 1.8 ポイント改善しましたが、RAM は 28 GB ではなく 42 GB 使用し、さらに遅くなりました。この評価では HellaSwag においても Q4_K_M よりスコアが低いです。

ローカル/CPU デプロイをするなら、おそらくワークロードがコード生成に大きく偏っていない限り、Q4_K_M を選ぶと思います。最大品質を狙うなら、BF16 が依然として勝ちます。

評価設定:

llama-cpp-python 経由の GGUF
n_ctx: 32768
チェックポイント付きの評価
HumanEval、HellaSwag、BFCL はすべて完了
BFCL は 400 のファンクションコーリングサンプル

この評価は Neo AI Engineer を使って行いました。これにより、GGUF の評価セットアップの構築、チェックポイント付きの実行の処理、ベンチマーク結果の統合が行われました。結果についても私は手動で確認しました。

下記のコメントに記載の、ベンチマーク結果、アプローチ、コードスニペットを含む完全なケーススタディ

submitted by /u/gvij
[link] [comments]

Black Hat USA

AI Business

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

Dev.to

背景を画像から無料で削除（登録不要）：実践ガイド

Dev.to

Claude Code（通称 Claudinho）のスキルを使う方法

Dev.to

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

Dev.to

Qwen 3.6 27B：BF16とQ4_K_M、Q8_0のGGUFを評価（llama-cpp-python）

要点

関連記事

Black Hat USA

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

背景を画像から無料で削除（登録不要）：実践ガイド

Claude Code（通称 Claudinho）のスキルを使う方法

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer