Qwen3.6-27B IQ4_XS：VRAM全量（110kコンテキスト対応）での肥大化、llama.cppのコミット戻しで16GB VRAM節約（14.7GB vs 15.1GB）＋KVキャッシュ検証

Reddit r/LocalLLaMA / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

Qwen3.6-27BのIQ4_XS量子化モデルが、同等のQwen3.5系で高効率だった14.7GBから15.1GBへ肥大化し、16GB VRAM環境での実用性が下がっていると指摘されています。
その主因はllama.cppの特定コミット（1dab5f5a44）で、attn_qkv層の量子化が最低Q5_Kに固定されてしまうことだと説明されています。
著者はソースコードを修正して元のIQ4_XS層量子化に1:1で戻し、比較ベンチマークを行った結果、品質低下は大きくないことを確認しています。
元に戻した14.7GB相当のカスタムモデル（GGUF）を公開し、さらに65kコンテキストでのPerplexityベンチマーク結果も提示しています。

Qwen3.6-27B IQ4_XS Bloat: llama.cppコミットの巻き戻しで16GB VRAMを16GB節約（14.7GB vs 15.1GB）＋KVCacheテスト

Qwen3.6-27Bのリリース後、3.5バージョン向けにmradermacherが作成した優れたIQ4_XS量子化（14.7GB）Qwen3.5-27B-i1-GGUF と比べて、今回の画像（モデル）が肥大化していることに気づきました。Qwen3.6相当（Qwen3.6-27B-i1-GGUF）は現在15.1GBあります。

IQ4_XSは本物の"ユニコーン"です――すべてのベンチマークで、サイズとモデル品質の比率が驚異的です。実際には、まともなコンテキストを確保して16GB VRAMで27Bモデルを動かすための、唯一の実行可能な選択肢です。これより下は、コーディング用途のタスクには適しません。残念ながら14.7GBから15.1GBへの増加は、16GBカードでの体験を壊してしまいました。

原因と解決策 犯人は特定のllama.cppコミット（1dab5f5a44）です：GitHubリンク。その影響は、attn_qkv層の量子化を最低でもQ5_Kに固定してしまうことです。

これを直すために、ソースコードを修正し、元のIQ4_XS層の量子化を1:1で再現しました。mradermacherのimatrix（Qwen3.6-27B-i1-GGUF）を使い、比較ベンチマークを実施しました。モデル品質の大きな低下は観察されませんでした。私の見解では、言及されたコミットはIQ4_XSフォーマットに対する純粋な後退（regression）です。

層を巻き戻した14.7GBの自作モデルはこちらで入手可能です： cHunter789/Qwen3.6-27B-i1-IQ4_XS-GGUF

パープレキシティ・ベンチマーク：65kコンテキスト（-c 65536）

テストパラメータ： pg19.txt （Project Gutenbergからここでダウンロード、 --chunks 32, -ngl 99 （特記がない限り）、 -fa 1, -b 512, -ub 128

ID	モデルサイズ	モデルファイル / バージョン	`-ctk`	`-ctv`	最終PPL
1	15.1GB	`Qwen3.6-27B.i1-IQ4_XS.gguf` (標準)	`q8_0`	`q8_0`	7.3765 ± 0.0276
2	14.7GB	`...-IQ4_XS-attn_qkv-IQ4_XS.gguf` (カスタム)	`q8_0`	`q8_0`	7.3804 ± 0.0276
3	14.7GB	`...-IQ4_XS-attn_qkv-IQ4_XS.gguf` (カスタム)	`q8_0`	`turbo2`	7.4260 ± 0.0277
4	15.1GB	`Qwen3.6-27B.i1-IQ4_XS.gguf` (標準)	`q8_0`	`turbo3`	7.4069 ± 0.0277
5	14.7GB	`...-IQ4_XS-attn_qkv-IQ4_XS.gguf` (カスタム)	`q4_0`	`q4_0`	7.3964 ± 0.0277
6	14.7GB	`...-IQ4_XS-attn_qkv-IQ4_XS.gguf` (カスタム)	`turbo3`	`turbo3`	7.4317 ± 0.0279

65kコンテキスト用コマンドライン：

./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl -1 -ctk q8_0 -ctv q8_0 -fa 1 -b 512 -ub 128
./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl -1 -ctk q8_0 -ctv q8_0 -fa 1 -b 512 -ub 128
./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl -1 -ctk q8_0 -ctv turbo2 -fa 1
./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl 99 -ctk q8_0 -ctv turbo3 -fa 1 -b 512 -ub 128
./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl 99 -ctk q4_0 -ctv q4_0 -fa 1 -b 512 -ub 128
./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl 99 -ctk turbo3 -ctv turbo3 -fa 1 -b 512 -ub 128

KVキャッシュの観察： これらのテストは、Qwen3.6-27Bに関してはturboquant_plusの結論が当てはまらないことを示しています。Vキャッシュを犠牲にしてKキャッシュを増やしても、目立った有益性はありません。実際、このモデルではVキャッシュのほうが同程度に重要であるように見えます。

パープレキシティ・ベンチマーク：110kコンテキスト（-c 110000）

上記を踏まえ、対称的なTurbo3量子化を使うことにしました。さらに、私のカスタム14.7GBモデルと組み合わせることで、110kコンテキストを16GB VRAM内で完全に実現できました。（テストにかなり時間がかかったので、データを評価してもらえると嬉しいです！）

ID	モデルサイズ	モデルファイル / バージョン	`-ctk`	`-ctv`	最終PPL
7	14.7GB	`...-IQ4_XS-attn_qkv-IQ4_XS.gguf` (カスタム)	`q8_0`	`q8_0`	7.5205 ± 0.0285
8	14.7GB	選択した最終設定	turbo3	turbo3	7.5758 ± 0.0287
9	15.1GB	`Qwen3.6-27B.i1-IQ4_XS.gguf` (標準)	`turbo3`	`turbo3`	7.5727 ± 0.0287

110kコンテキスト用コマンドライン：
7. ./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 110000 --chunks 32 -ngl -1 -ctk q8_0 -ctv q8_0 -fa 1 -b 512 -ub 64
8. ./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 110000 --chunks 32 -ngl 99 -ctk turbo3 -ctv turbo3 -fa 1 -b 512 -ub 256
9. ./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS.gguf -f pg19.txt -c 110000 --chunks 32 -ngl -1 -ctk turbo3 -ctv turbo3 -fa 1 -b 512 -ub 256

Q3論争

Q3モデルは問題ない、という理論がいくつか出回っています。判断はあなたに任せます：

ID	モデルサイズ	モデルファイル / バージョン	`-ctk`	`-ctv`	最終PPL
10	Q3_K_L	`Qwen3.6-27B.i1-Q3_K_L.gguf`	`q8_0`	`q8_0`	7.6538 ± 0.0292
11	Q3_K_L	`Qwen3.6-27B.i1-Q3_K_L.gguf`	`turbo3`	`turbo3`	7.7085 ± 0.0295

Q3テストのコマンドライン:
10. ./llama-perplexity -m Qwen3.6-27B.i1-Q3_K_L.gguf -f pg19.txt -c 110000 --chunks 32 -ngl -1 -ctk q8_0 -ctv q8_0 -fa 1 -b 512 -ub 128
11. ./llama-perplexity -m Qwen3.6-27B.i1-Q3_K_L.gguf -f pg19.txt -c 110000 --chunks 32 -ngl 99 -ctk turbo3 -ctv turbo3 -fa 1 -b 512 -ub 256

投稿者 /u/Pablo_the_brave
[リンク] [コメント]

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

Dev.to

Claude Code（通称 Claudinho）のスキルを使う方法

Dev.to

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

Dev.to

Qwen3.6-27B IQ4_XS：VRAM全量（110kコンテキスト対応）での肥大化、llama.cppのコミット戻しで16GB VRAM節約（14.7GB vs 15.1GB）＋KVキャッシュ検証

要点

Qwen3.6-27B IQ4_XS Bloat: llama.cppコミットの巻き戻しで16GB VRAMを16GB節約（14.7GB vs 15.1GB）＋KVCacheテスト

パープレキシティ・ベンチマーク：65kコンテキスト（-c 65536）

パープレキシティ・ベンチマーク：110kコンテキスト（-c 110000）

Q3論争