llama.cpp の FP4推論(NVFP4)と ik_llama.cpp の MXFP4 がついに上陸

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • llama.cpp に Nvidia のブロックスケーリング FP4「NVFP4」(GGML_TYPE_NVFP4=40)の推論対応がマージされ、CUDA カーネル(mmq.cuh、mmvq.cu、convert.cu など)も追加された。
  • ik_llama.cpp では MXFP4(GGML_TYPE_MXFP4=39)が PR #682 以来提供されており、CPU(AVX2/NEON/Zen4)と CUDA の実装範囲が広い。
  • NVFP4 と MXFP4 は同じワイヤフォーマットではなく、NVFP4 は Nvidia 固有の E4M3+ブロックスケーリング、MXFP4 は MX コンソーシアム標準に基づく。
  • どちらも 4-bit 浮動小数点(FP4)領域での推論を実現するため、モデル側の対応が進めば VRAM の大幅節約につながる可能性がある。
  • Hugging Face 上の NVFP4 モデル例を挙げつつ、ローカルでの動作確認も報告されている。
FP4 inference in llama.cpp (NVFP4) and ik_llama.cpp (MXFP4) landed - Finally

llama.cpp と ik_llama.cpp の両方に FP4 対応が入りました — ただし、知っておくべき違う種類(テイスト)があります。

llama.cpp は最近、NVFP4(Nvidia のブロックスケーリング FP4、`GGML_TYPE_NVFP4 = 40`)をマージしました。CUDA カーネルは `mmq.cuh`、`mmvq.cu`、`convert.cu` などに追加されています。

ik_llama.cpp には PR #682 から MXFP4(`GGML_TYPE_MXFP4 = 39`)がありました — gpt-oss モデルで使われる MX 準拠の FP4 です。実際の対応範囲はもっと広く、CPU(AVX2、NEON、Zen4)や CUDA がすべて実装されています。

これらは同じワイヤフォーマットではありません — NVFP4 はブロックスケーリング付きの Nvidia 固有 E4M3 で、MXFP4 は MX コンソーシアムの標準に従います — しかしどちらも 4-bit 浮動小数点の領域に着地しており、モデルの対応が追いつけば、意味のある VRAM 節約につながるはずです。

今日、両方のリポジトリをローカルで grep して確認しました。

私の環境: 5090(24GB VRAM)

さっそく取りに行って試してみてください(モデル):
https://huggingface.co/models?num_parameters=min:0,max:64B&sort=modified&search=NVFP4

個人的なおすすめ:
- Abiray-Qwen3.6-27B-NVFP4
- Qwen3-1.7B-NVFP4A16
- Qwen3.5-2B-NVFP4
- gemma-4-31B-it-NVFP4-turbo-GGUF
- Qwen3-0.6B-FP4

量子化にはわくわくする時代ですね。

訂正: “Meta's” を削除しました

submitted by /u/Usual-Carrot6352
[link] [comments]