qwen 3.5 モデルファミリにおける重みの量子化と KV キャッシュ量子化のトレードオフについて、回答がまちまちです。
このモデルのアーキテクチャは、q8 K または V キャッシュ量子化によって実際にはほとんど悪影響を受けない、という情報源もあります。
現在、bf16 KV キャッシュを用いた q6k 重みを実行しています。GPUには約80kのコンテキストウィンドウで収まります。公式ドキュメントでは128kのコンテキストウィンドウを下回らないことを推奨しているようです。
q4 重みへ移行するか、あるいは q8 KV へするかのトレードオフを判断しようとしています。どちらを選んでも128kを超えるコンテキストウィンドウを実現できるはずです。
ありがとうございます!
[リンク] [コメント]