nvidia/Gemma-4-26B-A4B-NVFP4

Reddit r/LocalLLaMA / 2026/5/1

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ユーザーは、NVIDIAのGemma 4 26Bの派生モデル(nvidia/Gemma-4-26B-A4B-NVFP4)がRTX 5090上で動作し、GPUメモリの割り当てを約80%にすることで約50kのコンテキスト長が得られたと報告しています。
  • NVFP4量子化モデルのサイズは約18.8GBとされており、フル精度版よりもVRAM要件を下げられることを示唆しています。
  • ベンチマークでは、複数のテストでフル精度と比べて同等〜わずかに良い結果が見られ、たとえばAIME 2025ではNVFP4が90.00%(フル精度88.95%)でした。
  • 一方で、GPQA Diamondのようにわずかに低下する指標(NVFP4 79.90% vs 80.30%)もあるものの、IFEvalのようにほぼ同水準の例(96.40% vs 96.60%)もあります。
nvidia/Gemma-4-26B-A4B-NVFP4
  • 5090で動作することを確認しました。80%の割り当て(32GBのうち)で、約50kのコンテキストでした。
  • 18.8GBです
ベンチマーク ベースライン(フル精度) NVFP4
GPQA Diamond 80.30% 79.90%
AIME 2025 88.95% 90.00%
MMLU Pro 85.00% 84.80%
LiveCodeBench (pass@1) 80.50% 79.80%
IFBench 77.77% 78.1%
IFEval 96.60% 96.40%
submitted by /u/reto-wyss
[リンク] [コメント]