llama.cpp の FP4推論（NVFP4）と ik_llama.cpp の MXFP4 がついに上陸

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

llama.cpp に Nvidia のブロックスケーリング FP4「NVFP4」（GGML_TYPE_NVFP4=40）の推論対応がマージされ、CUDA カーネル（mmq.cuh、mmvq.cu、convert.cu など）も追加された。
ik_llama.cpp では MXFP4（GGML_TYPE_MXFP4=39）が PR #682 以来提供されており、CPU（AVX2/NEON/Zen4）と CUDA の実装範囲が広い。
NVFP4 と MXFP4 は同じワイヤフォーマットではなく、NVFP4 は Nvidia 固有の E4M3＋ブロックスケーリング、MXFP4 は MX コンソーシアム標準に基づく。
どちらも 4-bit 浮動小数点（FP4）領域での推論を実現するため、モデル側の対応が進めば VRAM の大幅節約につながる可能性がある。
Hugging Face 上の NVFP4 モデル例を挙げつつ、ローカルでの動作確認も報告されている。

FP4 inference in llama.cpp (NVFP4) and ik_llama.cpp (MXFP4) landed - Finally

llama.cpp と ik_llama.cpp の両方に FP4 対応が入りました — ただし、知っておくべき違う種類（テイスト）があります。

llama.cpp は最近、NVFP4（Nvidia のブロックスケーリング FP4、`GGML_TYPE_NVFP4 = 40`）をマージしました。CUDA カーネルは `mmq.cuh`、`mmvq.cu`、`convert.cu` などに追加されています。

ik_llama.cpp には PR #682 から MXFP4（`GGML_TYPE_MXFP4 = 39`）がありました — gpt-oss モデルで使われる MX 準拠の FP4 です。実際の対応範囲はもっと広く、CPU（AVX2、NEON、Zen4）や CUDA がすべて実装されています。

これらは同じワイヤフォーマットではありません — NVFP4 はブロックスケーリング付きの Nvidia 固有 E4M3 で、MXFP4 は MX コンソーシアムの標準に従います — しかしどちらも 4-bit 浮動小数点の領域に着地しており、モデルの対応が追いつけば、意味のある VRAM 節約につながるはずです。

今日、両方のリポジトリをローカルで grep して確認しました。

私の環境: 5090（24GB VRAM）

さっそく取りに行って試してみてください（モデル）:
https://huggingface.co/models?num_parameters=min:0,max:64B&sort=modified&search=NVFP4

量子化にはわくわくする時代ですね。

訂正: “Meta's” を削除しました

submitted by /u/Usual-Carrot6352
[link] [comments]