ggml: NVFP4量子化タイプのサポートを追加

Reddit r/LocalLLaMA / 2026/3/13

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • GGML/llama.cpp に NVIDIA NVFP4 量子化のサポートを追加し、新しい GGML_TYPE_NVFP4 および関連するブロック構造と変換ヘルパーを導入します。
  • NVFP4 ModelOpt モデルを検出し GGUF ブロック形式へ再パックする convert_hf_to_gguf.py が含まれる更新です。
  • CPU バックエンドは現在、ARM NEON を用いたスカラー点積を使用し、バックエンド演算と量子化関数のテストが追加されました;HuggingFace の NVFP4 モデルと Apple M5 の MacBook 上での基本的なサーバー・スモークテストで検証しています。
  • リリースは b8297 タグから利用可能で、テスト用モデルの Qwen3-4B-NVFP4-GGUF が提供されています。
\"ggml:

利用可能 b8297 以降です。最新版の llama.cpp を取得してください。

本リリースは NVIDIA の NVFP4 量子化フォーマット(FP4 E2M1 重み、ブロックあたりのスケールが UE4M3、ブロックあたり 16 要素)をサポートします。これは NVIDIA ModelOpt の NVFP4 アルゴリズムによって生成されるフォーマットです。主な違いはスケールのエンコード方法です(UE4M3 対 E8M0)。

内容は以下のとおりです:

新しい GGML_TYPE_NVFP4 タイプ、ブロック構造、UE4M3 変換ヘルパー、参照の量子化/デ量子化

convert_hf_to_gguf.py は NVFP4 ModelOpt モデルを検出し、GGUF ブロック形式へ再パックします

CPU バックエンド:スカラー点積 + ARM NEON

gguf-py: 型定数、量子化/デ量子化、エンディアン変換

test-backend-ops および test-quantize-fns にテストを追加

https://huggingface.co/NVFP4 のモデルを用いて検証 Apple M5 MacBook(CPU、NEON) llama-bench を実行し、基本的なサーバー・スモークテストを実施しました。比較用の良いベースラインをお持ちの方のご協力をお願いします。

テスト用の Qwen3-4B モデルをテストに使用します。

投稿者 /u/pmttyji
[リンク] [コメント]