MLXにはAWQおよびGPTQ量子化モデルを遅くするバグがある

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

MLXに、AWQおよびGPTQ量子化モデルを遅くしてしまうバグが特定された。量子化によって高速化されるという期待に反する。
この問題は、GitHub の issue ml-explore/mlx#3251 および Reddit のユーザー /u/PiaRedDragon の投稿で議論され、修正を最優先するよう要望されている。
このバグは、32/64グルーピング混在を使用する4ビットINT4パスに関与しており、それが遅延の原因と考えられる。
著者は修正を優先させるためにAppleへ連絡するよう促しており、AWQおよびGPTQ量子化モデルのユーザーに広範な影響が及ぶ可能性を強調している。
これを修正することで、すべてのAWQおよびGPTQ量子化モデルに期待される速度向上を取り戻せる可能性がある。

私は量子化モデルから期待する速度が得られない理由を調査していました（つまり、量子化されたモデルは小さく、非量子化のモデルよりずっと高速であるはずです）そして MLX のこのバグ報告を見つけました: https://github.com/ml-explore/mlx/issues/3251

Appleの方々をご存知であれば、この修正を優先してもらえるよう依頼してくれますか。 AWQとGPTQの量子化全体に役立つでしょう。

お使いのモデルが「4-bit INT4」を使用している場合、おそらくこのバグが特定した 32/64 のグルーピングの組み合わせを使用しています。

note

note

note

note

note