APEX MoE量子化アップデート:Qwen 3.5投稿以降25件以上の新モデル+新ティア「I-Nano」

Reddit r/LocalLLaMA / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • APEX(MoE対応の混合精度量子化)について、最初のQwen 3.5 35B-A3Bの投稿以降に30+のMoE系モデル群へ拡大し、25件以上の追加モデルが報告されたとしています。
  • 主なフィードバックとして、I-Balanced / I-Compactが30〜50B級MoEでも32kトークン超の長文でのコヒーレンスを維持し、均一Q4_Kより劣化が小さい可能性が示されています。
  • コーディング用途では、Qwen 3.6 35B-A3BのユーザーからI-Compact / I-Miniがサイズの割に実コードタスクでF16に近い挙動だという報告が挙がっています。
  • 新しい超圧縮ティアI-Nano(IQ2_XXS)が追加され、ビット幅を2.06 bpw級まで下げつつ、MoEのスパースなトークンごとのエキスパート活性前提でimatrixが必要になると説明されています。
  • 追加されたモデルはQwen系、フロンティア規模のMoE(レンタルBlackwellで量子化)、Gemma 4ファミリー、コミュニティのMoEマージなど多岐にわたります。

APEXに関する簡単な続報です。MoE対応の混合精度量子化戦略(mixed-precision quant strategy)について。元の投稿はQwen 3.5 35B-A3B( https://www.reddit.com/r/LocalLLaMA/comments/1s9vzry/apex_moe_quantized_models_boost_with_33_faster/ )の話だけでしたが、その後、このコレクションは主要なほとんどのファミリーにわたって30以上のMoEへと増えています。さらに、新しい超圧縮ティアも追加されました。

これまでのフィードバック

戻ってきた報告は、正直なところ、私の予想よりかなり良いです!

  • 長いコンテキストが持ちこたえています。APEXのI-BalancedおよびI-Compactが、30〜50BクラスのMoEにおいて、均一Q4_Kが目に見えて劣化し始めるようなサイズでも、32kトークンを大きく超えてもコヒーレンス(整合性)をうまく保持しているとの報告があります。仮説:共有エキスパートとエッジ層を高精度のまま維持する(レア/長距離のトークンがルーティングされ、埋め込まれる箇所)ことで、攻めた一様量子化ががが壊しがちなロングコンテキスト挙動が温存される、というものです。さらに、他のモデルと比べて圧倒的にKL99%の値が最良であることで裏づけられています
  • コーディング用の量子化(coding quants)はサイズ以上に効きます。特にQwen3.6 35b a3bのユーザーから、I-CompactおよびI-Miniが、サイズクラスから予想される以上に実際のコード課題でF16に驚くほど近いといった指摘が出ています。

皆さんが報告してくれたおかげで、それが「それより下のロー・ビット・ティア」へさらに踏み込むことを正当化してくれています。

最初の投稿以降に追加されたモデル

ファミリーごとにまとめました。多くは30〜70BクラスのMoEで、I-Mini/I-Compactなら1台のコンシューマGPUに収まります:

Qwen系

  • Qwen 3.5 122B-A10B、Qwen 3.5 397B-A17B、Qwen3.5 Claude-Distilled、Qwen3.5 Fernflower(非検閲)、Qwen3.5 TQ
  • Qwen 3.6 35B-A3B、+heretic、+Claude 4.6 distill、+Claude 4.7 distill
  • Qwen3-Coder 30B、Qwen3-Coder Next

フロンティア級サイズのMoE(量子化のためBlackwellをレンタル)

  • MiniMax-M2.5、MiniMax-M2.7 — 228B / 24Bアクティブ、最大規模
  • Mistral-Small 4 119B-2603
  • NVIDIA Nemotron-3-Super 120B-A12B
  • GLM-4.7 Flash、Step-3.5 Flash
  • Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni Reasoning — マルチモーダル(vision + audio + text)
  • Holo3 35B-A3B
  • Huihui3.5 67B-A3B

ハイブリッドMamba / SSM MoE

  • Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni Reasoning — マルチモーダル(vision + audio + text)
  • Holo3 35B-A3B
  • LFM2 24B-A2B

Gemma 4ファミリー

  • gemma-4 26B-A4B-it(今日、Googleの更新されたチャットテンプレートで再量子化したばかりです)、+Claude Opus distill、+heretic、Gemopus-4 Preview

コミュニティのMoEマージ

  • Carnice MoE 35B-A3B、Carnice-Qwen3.6、Qwopus MoE 35B-A3B

新しいティア:I-Nano(IQ2_XXS)

ミドル層のルーティングされるエキスパートを2.06 bpwまで落とし、エッジ手前をIQ2_S、エッジをQ3_K、共有エキスパートをQ5_Kにします。I-Miniより約20%小さくなります。これはMoEに限って成立し、トークンごとのエキスパート活性化が疎であることによるものです。imatrixが必要です。

例:

  • Qwen 3.5 35B-A3B:I-Mini 13 GB → I-Nano 11 GB
  • Nemotron Omni 30B:I-Mini 18 GB → I-Nano 17 GB(保存率は低め—共有エキスパートがより密)

リンク

APEXの量子化モデル(quants)を使っていてフィードバックがあれば、コメント歓迎です!

submitted by /u/mudler_it
[link] [comments]