広告

APEX MoEの量子化モデルは33%高速な推論とTurboQuant(プロンプト処理で速度向上14%)で強化

Reddit r/LocalLLaMA / 2026/4/2

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • APEX(Adaptive Precision for Expert Models)はオープンソースのMoE量子化手法で、Unsloth Dynamic 2.0と比べて精度を改善または同等に保ちつつ、推論を約33%高速化できると主張しています。
  • この手法はQwen3.5-35B-A3Bで実証されており、他のMoEモデルにも汎用的に適用できると報告されています。F16と同等の困惑度(perplexity)を維持しながら、モデルサイズを削減できます(ベースラインに対してMoEは約2倍小型)。
  • APEXはパッチ不要のstock llama.cppで動作するため、ローカルLLMの導入が容易です。
  • 今回のリリースでは、複数のAPEX「ティア」(I-Quality、I-Balanced、I-Compact、Mini)が用意されており、それぞれVRAM使用量の目安と精度のトレードオフが設定されています。必要メモリは約21.3GBから約12.2GBまでの範囲です。
  • TurboQuantにより、8Kコンテキストでプロンプト処理が約14%高速化されると記事では報告されています。DGX Sparkでベンチマークを実施中で、GitHub/Hugging Face上に公開されたコードとモデルへの言及があります。
APEX MoE quantized models boost with 33% faster inference and TurboQuant (14% of speedup in prompt processing)

APEX(Adaptive Precision for EXpert Models)を先ほどリリースしました。これは新しいMoE量子化手法で、精度においてUnsloth Dynamic 2.0を上回り、さらにMoEアーキテクチャ向けにサイズは2倍小さくなっています。

Qwen3.5-35B-A3Bでベンチマークしましたが、この手法は任意のMoEモデルに適用できます。Q8の半分のサイズ。パープレキシティはF16と同等です。

パッチなしで、そのままllama.cppで動作します。オープンソース(もちろん!)、github.com/mudler/LocalAIチームから<3!

https://preview.redd.it/uv2bnfheymsg1.jpg?width=1632&format=pjpg&auto=webp&s=3eca979e8f9ca6b75d206eecdf29308b74aed530

パープレキシティ単体では全てを語れません。KLダイバージェンスは、パープレキシティでは分からない物語を語ります:

https://preview.redd.it/jn9ua2ksymsg1.jpg?width=1617&format=pjpg&auto=webp&s=7df969308e10aa6b6d31098c92fca1c14bb42a40

すべてのGPU向けのティア:

- I-Quality: 21.3 GB -- 最良の精度

- I-Balanced: 23.6 GB -- ベストなオールラウンダー

- I-Compact: 16.1 GB -- 24GB GPUに収まる

- Mini: 12.2 GB -- 16GB VRAMに収まる

https://preview.redd.it/zv3t6qynymsg1.jpg?width=1632&format=pjpg&auto=webp&s=6cb830e889dbeeda768f32be41b2bb02ce3bc11f

TurboQuantでは、8Kコンテキスト時に、APEXの各ティアでプロンプト処理が約14%速くなります(これはDGX Sparkでベンチマーク中です):

https://preview.redd.it/gtib0wkbzmsg1.png?width=534&format=png&auto=webp&s=f87f7e4e97fd6fbe11449a3d691b017e92a05e20

モデル:http://huggingface.co/mudler/Qwen3.5-35B-A3B-APEX-GGUF

手法+技術論文:http://github.com/mudler/apex-quant

ローカルで実行:http://github.com/mudler/LocalAI

Twitter/Xでの元投稿:https://x.com/mudler_it/status/2039364812463853708

submitted by /u/mudler_it
[link] [comments]

広告