Qwen 3.5 27B - KVキャッシュを量子化するべきか？

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

本投稿は、Qwen 3.5 27B 系列における重みの量子化と KV キャッシュの量子化のトレードオフを検討しており、オンライン上の指針が混在していると指摘している。
K または V のキャッシュを q8 に量子化しても、モデルのアーキテクチャに大きな影響を与えない可能性がある、という情報源がある。
著者は現在、bf16 KV キャッシュと組み合わせた約6千階調の重み量子化を用いており、約8万のコンテキストウィンドウを達成している。また、128k 未満に落とさないことを推奨するドキュメントがあると指摘している。
著者は、128k のコンテキストウィンドウを超えるために、q4 の重み量子化へ移行するべきか、あるいは q8 の KV キャッシュへ移行するべきかを検討している。
この議論は、より大きなコンテキストのLLMを展開する際の実用的な考慮事項と、パフォーマンスとコンテキスト長のバランスを取りながら量子化の選択を検討する必要性を浮き彫りにしている。

qwen 3.5 モデルファミリにおける重みの量子化と KV キャッシュ量子化のトレードオフについて、回答がまちまちです。

このモデルのアーキテクチャは、q8 K または V キャッシュ量子化によって実際にはほとんど悪影響を受けない、という情報源もあります。

現在、bf16 KV キャッシュを用いた q6k 重みを実行しています。GPUには約80kのコンテキストウィンドウで収まります。公式ドキュメントでは128kのコンテキストウィンドウを下回らないことを推奨しているようです。

q4 重みへ移行するか、あるいは q8 KV へするかのトレードオフを判断しようとしています。どちらを選んでも128kを超えるコンテキストウィンドウを実現できるはずです。

ありがとうございます！

Azure OpenAI Service ドキュメント

Reddit r/artificial

Dev.to

Reddit r/MachineLearning

Dev.to