それで私は自分自身に問いを投げかけました(そして私に代わってコーディングモデルにいくつかの部品を作ってもらいました).. LLM の層の値について話すとき、実際にはいくつが一意なのでしょうか?答えは私を数週間のコーディングへと導きました。( Claude、Qwen、Gemini も含めて、そうです)
fp16 は 16ビットです。私が出会った多くのモデルは、実際には約12〜13ビットの一意の値しか使用していません… しかしそれらをブロックにパックすることで、私が試したほとんどのモデルを10〜25%圧縮できます。サイズと引換えに推論速度の一部を犠牲にすることで、より小さなカードにモデルを収めることができます。(私の例のテストでは速度は概ね半分程度に低下します)
ロス/バランス版も組み込んでいますが、まだ十分にはテストしていません。テストされているのは私の小さなP2200(5G)カードとCPUで、32G MI50 へのアップデートに取り組んでいます。
また、これがモデルの「コンパクトさ」を測る良い方法になるかもしれないと考えています。
この記事は旅の過程を語る私の物語です(ペイウォールは解除済み)、現在の概念実証コードはこちらです: https://github.com/bigattichouse/Codebook-Quantization
[リンク] [コメント]




