私は vllm 上で Qwen-3.6 27B FP8 を、長いホライズンのエージェント型コーディング・ハーネスのワークロードに対して動かしています。高いコンテキストウィンドウと、並行するサブエージェントを多数扱います。別用途に使っていない 3090 を2台用いているので、速度と信頼性の良いバランスが取れることを期待しても妥当だと思えます。そこで、この最適化プロセスに関して争点になりがちな点を1つ取り上げたいです。私はソフトウェアエンジニアリングのバックグラウンドは豊富ですが、この領域では比較的新しいので、正しい方向に進めていないなら遠慮なく指摘してください。
従来の知見として、kvキャッシュは量子化すべきではない、というのがあるようです。私の経験では、私の特定のワークロードにおいてはそれは今も当てはまっていて、q8 にすると、微妙なミスが多発し、ツール呼び出しの問題や、単に筋の悪い推論が頻繁に起きます。16ビットに固定すると、パフォーマンスは劇的に高くなります。
では、それを踏まえてなぜ人々がこの件を重大な解決策のように持ち出してくるのでしょうか? 軽いスキルのチャットボット用途なら分かります。とはいえ、なぜ誰も、フルサイズの kv 未満で何か“まともな”ものを実行するのでしょうか? 私は turboquant についても見かけるのですが、まだ試していません。ですが理解した範囲では、それも知能面での低下が付いてくるように見えます。
ということで、私の理解は正しいですか?
[link] [comments]




