| 以下は、Qwen 3.6 27B の異なる量子化(quantizations)間での品質差(いわゆる劣化)をテストするために私が思いついた、網羅的ではないテストです。16GB のVRAM環境で、どの量子化が最適かを把握したいです。 今回テストすること まず、プロンプト: モデルに次のことができるかを見たいです:
そして、疑問に思っているかもしれませんが。モデルが既存のチェスゲームで同じことを行うように学習されている可能性はあります。そこで、全くランダムな手を用意しました。いわゆる 300ELO 以上のプレイヤーなら絶対に指さないような種類の手です。 チェスをやらない人向けに言うと、7手目「h4」の後に盤がどう見えるはずかを示します。ちなみに、画像の品質ではなく、駒の位置と盤の向きを見てください。これは Lichess からのスクリーンショットにすぎないからです。 他のモデルは解けるの? 本題に入る前に、他のいくつかのモデルの結果をお見せします。盤の状態を正しく把握することすらできないモデルが思ったより多かったので、面白いと感じました。 Qwen 3.5 27B 最終的な駒の位置は概ね当たっているように見えますが、それでも上に元の盤面状態を描画してしまっています。間違ったマスをハイライトしており、盤の向きも間違っています。 Gemma 4 31B いい感じの chess.com のフラッグシップ盤面スタイルですね。盤の状態を理解できているとは言えそうですが、正しく描画できていません。マス目のパターンも崩れています。 Qwen3 Coder Next 何といえばいいのか分かりません。かなり失望しました。 Qwen3.6 35B A3B 予想どおり、35B は常に最速の Qwen モデルでしたが、その一方で、多くの異なる方法でタスクに失敗しています。そこで、16GB のカードに 27B をなんとか押し込む方法を探すことにしました。速度だけでは、そこまでの価値がないからです。 Qwen3.6 27B はどうやって解くの? ここにある各モデルは、すべて同じ llama.cpp のパラメータでテストしています:
BF16 バージョンは OpenRouter から、Q8 から Q4_K_XL までは L40S サーバーで、残りは私の RTX 5060 Ti で動かしました。 ツールや MCP を何も使わず、Llama.cpp Web UI 上でそのまま SVG コードを生成しました(元々 Pi agent でこのテストを実行していましたが、親フォルダを覗き込み、より高い量子化の既存 SVG 図を見つけて、そのほとんどをコピーしてしまっていたのが分かったためです)。 BF16 - 完全精度 これがこのテストの基準(ベースライン)です。必要なものが全部そろっていました:正しい位置、正しい盤面の向き、正しい駒の色、正しいハイライトです。点線の青い線は予想外でしたが、後で分かるように、高い量子化(high quants)ではあまり生成されないので、それも面白い点でした。 Q8_0 予想どおり、Q8 は完全精度とほぼ同じで、違いはその線だけです。 Q6_K ここで品質の低下が見え始めます。つまり、5段目のポーンの配置です。駒の見た目が違うのは、Q6 が別のフォントを使うことを選んだためです。このテストでは、どのモデルも自分で駒を描こうとしていません。 Q5_K_XL Q8 とかなり似ています。ただし、注目すべき点として、Q5 の SVG コードは 7.1 KB で、Q8 は 4.7 KB です。 Q4_K_XL と IQ4_XS フォントの選択を無視すれば、Q4_K_XL はより完成度の高い解決策です。なぜなら盤の座標(コーディネート)が含まれているからです。 Q3_K_XL と Q3_K_M IQ3_XXS ここが面白いところで、ほとんどは正解でした。駒の配置とハイライトは概ね合っていて、最後の手にも線が入っています! しかし、IQ3_XXSは盤面の向きを間違えています。左下にある明るいマスを見てください? Q2_K_XL これは時間の無駄です。とはいえ、駒の位置は全部正しくできていました。ただし、盤面の位置合わせがまったくできていません。 じゃあ、何を使えばいいの? 1回のテストだけではここで結論を出すには不十分だとは分かっています。でも個人的には、このテストの後はIQ4_XSより下のものは絶対に選びません(以前の別の試行でQ3_K_XLやそれ以下に悪い経験があったので)。 私のRTX 5060 Tiでは、vanilla llama.cppでIQ4_XSに対してpp 100 tps とtg 8 tpsくらいでした(ctkとctvの両方でq8、収まりました)。しかしTheTom's TurboQuantのフォークでは、全レイヤーに対してGPUオフロードを強制することで(`-ngl 99`)、最大でpp 760 tps とtg 22 tpsまで引き上げられました。かなり実用的です。 唯一の欠点は、コンテキストウィンドウを75k未満に保つ必要があり、KVキャッシュの量子化にはturbo4/turbo2を使う必要があることです。 以下はいくつかの異なるKVキャッシュ量子化の例です。 結果はすべてこちらで直接確認できます https://qwen3-6-27b-benchmark.vercel.app/ [link] [comments] |
Qwen 3.6 27B の量子化(BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS…)における品質比較
Reddit r/LocalLLaMA / 2026/5/6
💬 オピニオンTools & Practical UsageModels & Research
要点
- この投稿は、Qwen 3.6 27B の量子化レベル(BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS など)を比較し、低精度形式でどれほど品質が劣化するかを検証しています。
- 著者は、PGN に基づくチェスのプロンプト(珍しい手を含む)を用いて、モデルが手順に沿って盤面状態を正確に追跡できるか、かつ最後の手をハイライトした正しいSVGを生成できるかを試します。
- 評価では、生成画像の見た目の良さではなく、駒配置と盤の向きの正確さを重視しており、参照は Lichess のスクリーンショットです。
- 序盤の観察として、正しい盤面状態を推測しSVGとして正しく描画するのが難しいケースが多いことが示され、16GB VRAM 環境で最適な量子化設定を探す動機になっています。
- さらに、Qwen 3.5 27B や Gemma 4 31B の結果も示され、誤りとして「元の盤面状態を保持してしまう」「誤ったマスをハイライトする」といった典型的な失敗パターンが例示されています。




