Nvidiaが売りにしている密なモデルの4ビット量子化の、8ビット分のサイズを無視すると…
密なモデルのKVキャッシュ・アーキテクチャは、他のモデルで見てきたものよりも3倍以上のメモリを使います。大きな選択は、128ではなく256のヘッド次元だったようです。
私は、Qwen3では128KBなのに対して、KVキャッシュの8ビットトークンあたり490KBを見ています。
私は、RTX Pro 6000(メモリ96GB)で、nvidiaの重みを4ビットで動かし、8ビットのKVキャッシュにしていますが、それでも115kトークン分しか入る余地がありません。
正直、驚きました。このモデルはvllmでうまくスケールし、かなり賢そうです。
[リンク] [コメント]




