| APEX(Adaptive Precision for EXpert Models)を先ほどリリースしました。これは新しいMoE量子化手法で、精度においてUnsloth Dynamic 2.0を上回り、さらにMoEアーキテクチャ向けにサイズは2倍小さくなっています。 Qwen3.5-35B-A3Bでベンチマークしましたが、この手法は任意のMoEモデルに適用できます。Q8の半分のサイズ。パープレキシティはF16と同等です。 パッチなしで、そのままllama.cppで動作します。オープンソース(もちろん!)、github.com/mudler/LocalAIチームから<3! パープレキシティ単体では全てを語れません。KLダイバージェンスは、パープレキシティでは分からない物語を語ります: すべてのGPU向けのティア: - I-Quality: 21.3 GB -- 最良の精度 - I-Balanced: 23.6 GB -- ベストなオールラウンダー - I-Compact: 16.1 GB -- 24GB GPUに収まる - Mini: 12.2 GB -- 16GB VRAMに収まる TurboQuantでは、8Kコンテキスト時に、APEXの各ティアでプロンプト処理が約14%速くなります(これはDGX Sparkでベンチマーク中です): モデル:http://huggingface.co/mudler/Qwen3.5-35B-A3B-APEX-GGUF 手法+技術論文:http://github.com/mudler/apex-quant ローカルで実行:http://github.com/mudler/LocalAI Twitter/Xでの元投稿:https://x.com/mudler_it/status/2039364812463853708 [link] [comments] |
APEX MoEの量子化モデルは33%高速な推論とTurboQuant(プロンプト処理で速度向上14%)で強化
Reddit r/LocalLLaMA / 2026/4/2
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- APEX(Adaptive Precision for Expert Models)はオープンソースのMoE量子化手法で、Unsloth Dynamic 2.0と比べて精度を改善または同等に保ちつつ、推論を約33%高速化できると主張しています。
- この手法はQwen3.5-35B-A3Bで実証されており、他のMoEモデルにも汎用的に適用できると報告されています。F16と同等の困惑度(perplexity)を維持しながら、モデルサイズを削減できます(ベースラインに対してMoEは約2倍小型)。
- APEXはパッチ不要のstock llama.cppで動作するため、ローカルLLMの導入が容易です。
- 今回のリリースでは、複数のAPEX「ティア」(I-Quality、I-Balanced、I-Compact、Mini)が用意されており、それぞれVRAM使用量の目安と精度のトレードオフが設定されています。必要メモリは約21.3GBから約12.2GBまでの範囲です。
- TurboQuantにより、8Kコンテキストでプロンプト処理が約14%高速化されると記事では報告されています。DGX Sparkでベンチマークを実施中で、GitHub/Hugging Face上に公開されたコードとモデルへの言及があります。




