AI Navigate

インサイト最新記事一覧 AI大全

広告

APEX MoEの量子化モデルは33%高速な推論とTurboQuant（プロンプト処理で速度向上14%）で強化

Reddit r/LocalLLaMA / 2026/4/2

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

APEX（Adaptive Precision for Expert Models）はオープンソースのMoE量子化手法で、Unsloth Dynamic 2.0と比べて精度を改善または同等に保ちつつ、推論を約33%高速化できると主張しています。
この手法はQwen3.5-35B-A3Bで実証されており、他のMoEモデルにも汎用的に適用できると報告されています。F16と同等の困惑度（perplexity）を維持しながら、モデルサイズを削減できます（ベースラインに対してMoEは約2倍小型）。
APEXはパッチ不要のstock llama.cppで動作するため、ローカルLLMの導入が容易です。
今回のリリースでは、複数のAPEX「ティア」（I-Quality、I-Balanced、I-Compact、Mini）が用意されており、それぞれVRAM使用量の目安と精度のトレードオフが設定されています。必要メモリは約21.3GBから約12.2GBまでの範囲です。
TurboQuantにより、8Kコンテキストでプロンプト処理が約14%高速化されると記事では報告されています。DGX Sparkでベンチマークを実施中で、GitHub/Hugging Face上に公開されたコードとモデルへの言及があります。

APEX MoE quantized models boost with 33% faster inference and TurboQuant (14% of speedup in prompt processing)

APEX（Adaptive Precision for EXpert Models）を先ほどリリースしました。これは新しいMoE量子化手法で、精度においてUnsloth Dynamic 2.0を上回り、さらにMoEアーキテクチャ向けにサイズは2倍小さくなっています。

Qwen3.5-35B-A3Bでベンチマークしましたが、この手法は任意のMoEモデルに適用できます。Q8の半分のサイズ。パープレキシティはF16と同等です。

パッチなしで、そのままllama.cppで動作します。オープンソース（もちろん！）、github.com/mudler/LocalAIチームから<3！

https://preview.redd.it/uv2bnfheymsg1.jpg?width=1632&format=pjpg&auto=webp&s=3eca979e8f9ca6b75d206eecdf29308b74aed530

パープレキシティ単体では全てを語れません。KLダイバージェンスは、パープレキシティでは分からない物語を語ります：

https://preview.redd.it/jn9ua2ksymsg1.jpg?width=1617&format=pjpg&auto=webp&s=7df969308e10aa6b6d31098c92fca1c14bb42a40

すべてのGPU向けのティア：

- I-Quality: 21.3 GB -- 最良の精度

- I-Balanced: 23.6 GB -- ベストなオールラウンダー

- I-Compact: 16.1 GB -- 24GB GPUに収まる

- Mini: 12.2 GB -- 16GB VRAMに収まる

https://preview.redd.it/zv3t6qynymsg1.jpg?width=1632&format=pjpg&auto=webp&s=6cb830e889dbeeda768f32be41b2bb02ce3bc11f

TurboQuantでは、8Kコンテキスト時に、APEXの各ティアでプロンプト処理が約14%速くなります（これはDGX Sparkでベンチマーク中です）：

https://preview.redd.it/gtib0wkbzmsg1.png?width=534&format=png&auto=webp&s=f87f7e4e97fd6fbe11449a3d691b017e92a05e20

モデル：http://huggingface.co/mudler/Qwen3.5-35B-A3B-APEX-GGUF

手法＋技術論文：http://github.com/mudler/apex-quant

ローカルで実行：http://github.com/mudler/LocalAI

Twitter/Xでの元投稿：https://x.com/mudler_it/status/2039364812463853708

submitted by /u/mudler_it
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/2Dailyインサイトを見る →

関連記事

Black Hat USA

Black Hat USA

AI Business

Black Hat Asia

Black Hat Asia

AI Business

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

日経XTECH

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

日経XTECH

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

日経XTECH

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告