|
[リンク] [コメント] |
nvidia/Gemma-4-26B-A4B-NVFP4
Reddit r/LocalLLaMA / 2026/5/1
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- ユーザーは、NVIDIAのGemma 4 26Bの派生モデル(nvidia/Gemma-4-26B-A4B-NVFP4)がRTX 5090上で動作し、GPUメモリの割り当てを約80%にすることで約50kのコンテキスト長が得られたと報告しています。
- NVFP4量子化モデルのサイズは約18.8GBとされており、フル精度版よりもVRAM要件を下げられることを示唆しています。
- ベンチマークでは、複数のテストでフル精度と比べて同等〜わずかに良い結果が見られ、たとえばAIME 2025ではNVFP4が90.00%(フル精度88.95%)でした。
- 一方で、GPQA Diamondのようにわずかに低下する指標(NVFP4 79.90% vs 80.30%)もあるものの、IFEvalのようにほぼ同水準の例(96.40% vs 96.60%)もあります。




