私は量子化モデルから期待する速度が得られない理由を調査していました(つまり、量子化されたモデルは小さく、非量子化のモデルよりずっと高速であるはずです)そして MLX のこのバグ報告を見つけました: https://github.com/ml-explore/mlx/issues/3251
Appleの方々をご存知であれば、この修正を優先してもらえるよう依頼してくれますか。 AWQとGPTQの量子化全体に役立つでしょう。
お使いのモデルが「4-bit INT4」を使用している場合、おそらくこのバグが特定した 32/64 のグルーピングの組み合わせを使用しています。
[リンク] [コメント]




