| llama.cpp と ik_llama.cpp の両方に FP4 対応が入りました — ただし、知っておくべき違う種類(テイスト)があります。 llama.cpp は最近、NVFP4(Nvidia のブロックスケーリング FP4、`GGML_TYPE_NVFP4 = 40`)をマージしました。CUDA カーネルは `mmq.cuh`、`mmvq.cu`、`convert.cu` などに追加されています。 ik_llama.cpp には PR #682 から MXFP4(`GGML_TYPE_MXFP4 = 39`)がありました — gpt-oss モデルで使われる MX 準拠の FP4 です。実際の対応範囲はもっと広く、CPU(AVX2、NEON、Zen4)や CUDA がすべて実装されています。 これらは同じワイヤフォーマットではありません — NVFP4 はブロックスケーリング付きの Nvidia 固有 E4M3 で、MXFP4 は MX コンソーシアムの標準に従います — しかしどちらも 4-bit 浮動小数点の領域に着地しており、モデルの対応が追いつけば、意味のある VRAM 節約につながるはずです。 今日、両方のリポジトリをローカルで grep して確認しました。 私の環境: 5090(24GB VRAM) さっそく取りに行って試してみてください(モデル): 個人的なおすすめ: 量子化にはわくわくする時代ですね。 訂正: “Meta's” を削除しました [link] [comments] |
llama.cpp の FP4推論(NVFP4)と ik_llama.cpp の MXFP4 がついに上陸
Reddit r/LocalLLaMA / 2026/4/26
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- llama.cpp に Nvidia のブロックスケーリング FP4「NVFP4」(GGML_TYPE_NVFP4=40)の推論対応がマージされ、CUDA カーネル(mmq.cuh、mmvq.cu、convert.cu など)も追加された。
- ik_llama.cpp では MXFP4(GGML_TYPE_MXFP4=39)が PR #682 以来提供されており、CPU(AVX2/NEON/Zen4)と CUDA の実装範囲が広い。
- NVFP4 と MXFP4 は同じワイヤフォーマットではなく、NVFP4 は Nvidia 固有の E4M3+ブロックスケーリング、MXFP4 は MX コンソーシアム標準に基づく。
- どちらも 4-bit 浮動小数点(FP4)領域での推論を実現するため、モデル側の対応が進めば VRAM の大幅節約につながる可能性がある。
- Hugging Face 上の NVFP4 モデル例を挙げつつ、ローカルでの動作確認も報告されている。



