APEX MoE量子化アップデート：Qwen 3.5投稿以降25件以上の新モデル＋新ティア「I-Nano」

Reddit r/LocalLLaMA / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

APEX（MoE対応の混合精度量子化）について、最初のQwen 3.5 35B-A3Bの投稿以降に30+のMoE系モデル群へ拡大し、25件以上の追加モデルが報告されたとしています。
主なフィードバックとして、I-Balanced / I-Compactが30〜50B級MoEでも32kトークン超の長文でのコヒーレンスを維持し、均一Q4_Kより劣化が小さい可能性が示されています。
コーディング用途では、Qwen 3.6 35B-A3BのユーザーからI-Compact / I-Miniがサイズの割に実コードタスクでF16に近い挙動だという報告が挙がっています。
新しい超圧縮ティアI-Nano（IQ2_XXS）が追加され、ビット幅を2.06 bpw級まで下げつつ、MoEのスパースなトークンごとのエキスパート活性前提でimatrixが必要になると説明されています。
追加されたモデルはQwen系、フロンティア規模のMoE（レンタルBlackwellで量子化）、Gemma 4ファミリー、コミュニティのMoEマージなど多岐にわたります。

APEXに関する簡単な続報です。MoE対応の混合精度量子化戦略（mixed-precision quant strategy）について。元の投稿はQwen 3.5 35B-A3B（ https://www.reddit.com/r/LocalLLaMA/comments/1s9vzry/apex_moe_quantized_models_boost_with_33_faster/ ）の話だけでしたが、その後、このコレクションは主要なほとんどのファミリーにわたって30以上のMoEへと増えています。さらに、新しい超圧縮ティアも追加されました。

これまでのフィードバック

戻ってきた報告は、正直なところ、私の予想よりかなり良いです！

長いコンテキストが持ちこたえています。APEXのI-BalancedおよびI-Compactが、30〜50BクラスのMoEにおいて、均一Q4_Kが目に見えて劣化し始めるようなサイズでも、32kトークンを大きく超えてもコヒーレンス（整合性）をうまく保持しているとの報告があります。仮説：共有エキスパートとエッジ層を高精度のまま維持する（レア／長距離のトークンがルーティングされ、埋め込まれる箇所）ことで、攻めた一様量子化ががが壊しがちなロングコンテキスト挙動が温存される、というものです。さらに、他のモデルと比べて圧倒的にKL99%の値が最良であることで裏づけられています
コーディング用の量子化（coding quants）はサイズ以上に効きます。特にQwen3.6 35b a3bのユーザーから、I-CompactおよびI-Miniが、サイズクラスから予想される以上に実際のコード課題でF16に驚くほど近いといった指摘が出ています。

皆さんが報告してくれたおかげで、それが「それより下のロー・ビット・ティア」へさらに踏み込むことを正当化してくれています。

最初の投稿以降に追加されたモデル

ファミリーごとにまとめました。多くは30〜70BクラスのMoEで、I-Mini/I-Compactなら1台のコンシューマGPUに収まります：

Qwen系

Qwen 3.5 122B-A10B、Qwen 3.5 397B-A17B、Qwen3.5 Claude-Distilled、Qwen3.5 Fernflower（非検閲）、Qwen3.5 TQ
Qwen 3.6 35B-A3B、+heretic、+Claude 4.6 distill、+Claude 4.7 distill
Qwen3-Coder 30B、Qwen3-Coder Next

フロンティア級サイズのMoE（量子化のためBlackwellをレンタル）

MiniMax-M2.5、MiniMax-M2.7 — 228B / 24Bアクティブ、最大規模
Mistral-Small 4 119B-2603
NVIDIA Nemotron-3-Super 120B-A12B
GLM-4.7 Flash、Step-3.5 Flash
Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni Reasoning — マルチモーダル（vision + audio + text）
Holo3 35B-A3B
Huihui3.5 67B-A3B

ハイブリッドMamba / SSM MoE

Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni Reasoning — マルチモーダル（vision + audio + text）
Holo3 35B-A3B
LFM2 24B-A2B

Gemma 4ファミリー

gemma-4 26B-A4B-it（今日、Googleの更新されたチャットテンプレートで再量子化したばかりです）、+Claude Opus distill、+heretic、Gemopus-4 Preview

コミュニティのMoEマージ

Carnice MoE 35B-A3B、Carnice-Qwen3.6、Qwopus MoE 35B-A3B

新しいティア：I-Nano（IQ2_XXS）

ミドル層のルーティングされるエキスパートを2.06 bpwまで落とし、エッジ手前をIQ2_S、エッジをQ3_K、共有エキスパートをQ5_Kにします。I-Miniより約20%小さくなります。これはMoEに限って成立し、トークンごとのエキスパート活性化が疎であることによるものです。imatrixが必要です。

例：

Qwen 3.5 35B-A3B：I-Mini 13 GB → I-Nano 11 GB
Nemotron Omni 30B：I-Mini 18 GB → I-Nano 17 GB（保存率は低め—共有エキスパートがより密）

リンク

コレクション：https://huggingface.co/collections/mudler/apex-quants-gguf
プロジェクト + 論文：https://github.com/mudler/apex-quant

APEXの量子化モデル（quants）を使っていてフィードバックがあれば、コメント歓迎です！

submitted by /u/mudler_it
[link] [comments]

Black Hat USA

AI Business

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

APEX MoE量子化アップデート：Qwen 3.5投稿以降25件以上の新モデル＋新ティア「I-Nano」

要点

これまでのフィードバック

最初の投稿以降に追加されたモデル

新しいティア：I-Nano（IQ2_XXS）

リンク