APEXに関する簡単な続報です。MoE対応の混合精度量子化戦略(mixed-precision quant strategy)について。元の投稿はQwen 3.5 35B-A3B( https://www.reddit.com/r/LocalLLaMA/comments/1s9vzry/apex_moe_quantized_models_boost_with_33_faster/ )の話だけでしたが、その後、このコレクションは主要なほとんどのファミリーにわたって30以上のMoEへと増えています。さらに、新しい超圧縮ティアも追加されました。
これまでのフィードバック
戻ってきた報告は、正直なところ、私の予想よりかなり良いです!
- 長いコンテキストが持ちこたえています。APEXのI-BalancedおよびI-Compactが、30〜50BクラスのMoEにおいて、均一Q4_Kが目に見えて劣化し始めるようなサイズでも、32kトークンを大きく超えてもコヒーレンス(整合性)をうまく保持しているとの報告があります。仮説:共有エキスパートとエッジ層を高精度のまま維持する(レア/長距離のトークンがルーティングされ、埋め込まれる箇所)ことで、攻めた一様量子化ががが壊しがちなロングコンテキスト挙動が温存される、というものです。さらに、他のモデルと比べて圧倒的にKL99%の値が最良であることで裏づけられています
- コーディング用の量子化(coding quants)はサイズ以上に効きます。特にQwen3.6 35b a3bのユーザーから、I-CompactおよびI-Miniが、サイズクラスから予想される以上に実際のコード課題でF16に驚くほど近いといった指摘が出ています。
皆さんが報告してくれたおかげで、それが「それより下のロー・ビット・ティア」へさらに踏み込むことを正当化してくれています。
最初の投稿以降に追加されたモデル
ファミリーごとにまとめました。多くは30〜70BクラスのMoEで、I-Mini/I-Compactなら1台のコンシューマGPUに収まります:
Qwen系
- Qwen 3.5 122B-A10B、Qwen 3.5 397B-A17B、Qwen3.5 Claude-Distilled、Qwen3.5 Fernflower(非検閲)、Qwen3.5 TQ
- Qwen 3.6 35B-A3B、+heretic、+Claude 4.6 distill、+Claude 4.7 distill
- Qwen3-Coder 30B、Qwen3-Coder Next
フロンティア級サイズのMoE(量子化のためBlackwellをレンタル)
- MiniMax-M2.5、MiniMax-M2.7 — 228B / 24Bアクティブ、最大規模
- Mistral-Small 4 119B-2603
- NVIDIA Nemotron-3-Super 120B-A12B
- GLM-4.7 Flash、Step-3.5 Flash
- Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni Reasoning — マルチモーダル(vision + audio + text)
- Holo3 35B-A3B
- Huihui3.5 67B-A3B
ハイブリッドMamba / SSM MoE
- Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni Reasoning — マルチモーダル(vision + audio + text)
- Holo3 35B-A3B
- LFM2 24B-A2B
Gemma 4ファミリー
- gemma-4 26B-A4B-it(今日、Googleの更新されたチャットテンプレートで再量子化したばかりです)、+Claude Opus distill、+heretic、Gemopus-4 Preview
コミュニティのMoEマージ
- Carnice MoE 35B-A3B、Carnice-Qwen3.6、Qwopus MoE 35B-A3B
新しいティア:I-Nano(IQ2_XXS)
ミドル層のルーティングされるエキスパートを2.06 bpwまで落とし、エッジ手前をIQ2_S、エッジをQ3_K、共有エキスパートをQ5_Kにします。I-Miniより約20%小さくなります。これはMoEに限って成立し、トークンごとのエキスパート活性化が疎であることによるものです。imatrixが必要です。
例:
- Qwen 3.5 35B-A3B:I-Mini 13 GB → I-Nano 11 GB
- Nemotron Omni 30B:I-Mini 18 GB → I-Nano 17 GB(保存率は低め—共有エキスパートがより密)
リンク
- コレクション:https://huggingface.co/collections/mudler/apex-quants-gguf
- プロジェクト + 論文:https://github.com/mudler/apex-quant
APEXの量子化モデル(quants)を使っていてフィードバックがあれば、コメント歓迎です!
[link] [comments]




