NVIDIA、NVFP4を用いた4ビット事前学習手法を発表—10Tトークンで12BハイブリッドMamba-Transformerに検証

MarkTechPost / 2026/5/18

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • NVIDIAは、NVFP4マイクロスケーリング形式を核にした新しい4ビット事前学習手法を発表し、低ビット学習の安定性と有効性の向上を狙っている。
  • この手法は、BF16レイヤーを選択的に使用し、Wgrad入力に対して16×16のランダムHadamard変換を適用し、2D重みスケーリングを行い、勾配に対して確率的丸め(stochastic rounding)を用いる点を組み合わせている。
  • NVIDIAは、10兆トークンの学習ホライズンで12BのハイブリッドMamba-Transformerにより検証しており、公開情報としては最長の4ビット事前学習実行とされている。
  • 下流タスクの性能はFP8ベースラインとほぼ同等で、MMLU-Proで62.58%対62.62%を記録し、4ビット事前学習でも品質が高い水準で維持されることを示した。

NVIDIAは、NVFP4マイクロスケーリング形式を中心に据えた4ビットの事前学習手法を導入します。これは、選択的なBF16層、Wgrad入力に対する16×16のランダム・ハダマール変換、2D重みスケーリング、勾配に対する確率的丸めを組み合わせたものです。これらは、10兆トークンで学習した12BのハイブリッドMamba-Transformerで検証されました。これは、公開されている中で最長の4ビット事前学習実行です。下流タスクでの精度は、FP8のベースラインと非常に近い値を示しており(MMLU-Proで62.58% vs 62.62%)、その差はわずかです。

記事 NVIDIAは、NVFP4を用いた4ビット事前学習手法を導入。10Tトークンの水準で、12BのハイブリッドMamba-Transformerで検証 は、MarkTechPost に最初に掲載されました。