Qwen3.5-27B 8ビット対16ビット

Reddit r/LocalLLaMA / 2026/3/17

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

著者は、Qwen3.5-27B を vLLM と比較し、元の bf16 バージョンと Qwen の -fp8 量子化を用い、8ビット KV キャッシュと元の 16ビットキャッシュを含めて比較した。
結果は実質的に同一で、わずかな差は各実行が一度だけ行われたことに起因するランダムノイズと考えられる。
テストは RTX 6000 Pro 上で Aider ベンチマークを使用した。
結論として、重みとキャッシュの両方に fp8 を使用すべきであり、利用可能なコンテキスト量を大幅に増やすことができる。

私は vLLM を用いて Qwen3.5 27B を、元の bf16 バージョンと Qwen が作成した -fp8 量子化、および 8ビット KV キャッシュと元の 16ビットキャッシュを比較しました。ほぼ同じ結果を得ました。小さな差はランダムノイズによるもので、各テストは一度しか実行していないからだと考えています。

このテストは RTX 6000 Pro 上で Aider ベンチマークを用いて実施しました。

私の結論は、重みとキャッシュの両方に fp8 を使用すべきだということです。これにより、利用可能なコンテキストの量が劇的に増えます。

投稿者 /u/Baldur-Norddahl
[リンク] [コメント]

Translator

Azure OpenAI Service ドキュメント

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

Reddit r/artificial

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

Dev.to

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

Qwen3.5-27B 8ビット対16ビット

要点

関連記事

Translator

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer