NVIDIAは、NVFP4マイクロスケーリング形式を中心に据えた4ビットの事前学習手法を導入します。これは、選択的なBF16層、Wgrad入力に対する16×16のランダム・ハダマール変換、2D重みスケーリング、勾配に対する確率的丸めを組み合わせたものです。これらは、10兆トークンで学習した12BのハイブリッドMamba-Transformerで検証されました。これは、公開されている中で最長の4ビット事前学習実行です。下流タスクでの精度は、FP8のベースラインと非常に近い値を示しており(MMLU-Proで62.58% vs 62.62%)、その差はわずかです。
記事 NVIDIAは、NVFP4を用いた4ビット事前学習手法を導入。10Tトークンの水準で、12BのハイブリッドMamba-Transformerで検証 は、MarkTechPost に最初に掲載されました。


