AI Navigate

Qwen3.5-27B 8ビット対16ビット

Reddit r/LocalLLaMA / 2026/3/17

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、Qwen3.5-27B を vLLM と比較し、元の bf16 バージョンと Qwen の -fp8 量子化を用い、8ビット KV キャッシュと元の 16ビット キャッシュを含めて比較した。
  • 結果は実質的に同一で、わずかな差は各実行が一度だけ行われたことに起因するランダムノイズと考えられる。
  • テストは RTX 6000 Pro 上で Aider ベンチマークを使用した。
  • 結論として、重みとキャッシュの両方に fp8 を使用すべきであり、利用可能なコンテキスト量を大幅に増やすことができる。
Qwen3.5-27B 8ビット対16ビット

私は vLLM を用いて Qwen3.5 27B を、元の bf16 バージョンと Qwen が作成した -fp8 量子化、および 8ビット KV キャッシュと元の 16ビットキャッシュを比較しました。ほぼ同じ結果を得ました。小さな差はランダムノイズによるもので、各テストは一度しか実行していないからだと考えています。

このテストは RTX 6000 Pro 上で Aider ベンチマークを用いて実施しました。

私の結論は、重みとキャッシュの両方に fp8 を使用すべきだということです。これにより、利用可能なコンテキストの量が劇的に増えます。

投稿者 /u/Baldur-Norddahl
[リンク] [コメント]