ggml: NVFP4量子化タイプのサポートを追加

Reddit r/LocalLLaMA / 2026/3/13

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

GGML/llama.cpp に NVIDIA NVFP4 量子化のサポートを追加し、新しい GGML_TYPE_NVFP4 および関連するブロック構造と変換ヘルパーを導入します。
NVFP4 ModelOpt モデルを検出し GGUF ブロック形式へ再パックする convert_hf_to_gguf.py が含まれる更新です。
CPU バックエンドは現在、ARM NEON を用いたスカラー点積を使用し、バックエンド演算と量子化関数のテストが追加されました；HuggingFace の NVFP4 モデルと Apple M5 の MacBook 上での基本的なサーバー・スモークテストで検証しています。
リリースは b8297 タグから利用可能で、テスト用モデルの Qwen3-4B-NVFP4-GGUF が提供されています。

$\"ggml:$

利用可能 b8297 以降です。最新版の llama.cpp を取得してください。

本リリースは NVIDIA の NVFP4 量子化フォーマット（FP4 E2M1 重み、ブロックあたりのスケールが UE4M3、ブロックあたり 16 要素）をサポートします。これは NVIDIA ModelOpt の NVFP4 アルゴリズムによって生成されるフォーマットです。主な違いはスケールのエンコード方法です（UE4M3 対 E8M0）。

内容は以下のとおりです：

新しい GGML_TYPE_NVFP4 タイプ、ブロック構造、UE4M3 変換ヘルパー、参照の量子化/デ量子化

convert_hf_to_gguf.py は NVFP4 ModelOpt モデルを検出し、GGUF ブロック形式へ再パックします

CPU バックエンド：スカラー点積 + ARM NEON

gguf-py: 型定数、量子化/デ量子化、エンディアン変換

test-backend-ops および test-quantize-fns にテストを追加

https://huggingface.co/NVFP4 のモデルを用いて検証 Apple M5 MacBook（CPU、NEON） llama-bench を実行し、基本的なサーバー・スモークテストを実施しました。比較用の良いベースラインをお持ちの方のご協力をお願いします。

テスト用の Qwen3-4B モデルをテストに使用します。

投稿者 /u/pmttyji
[リンク] [コメント]

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

Innovatopia

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ

ITmedia AI+

PyTorchによる線形回帰のスクラッチ実装と理論設計

Qiita

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

note

ggml: NVFP4量子化タイプのサポートを追加

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ

PyTorchによる線形回帰のスクラッチ実装と理論設計

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携 AI時代の「創作エコシステム」実現へ

PyTorchによる線形回帰のスクラッチ実装と理論設計

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ