要約: 行列乗算の性能は長年、ディープラーニングワークロードをスケールさせる際の主要なボトルネックであり、これはますます低精度の数値形式を用いる新しいアクセラレータの設計を促してきました。しかし、行列乗算の性能の向上は、リダクションと要素ごとの計算の性能向上をはるかに上回っており、それらは依然として高精度で実行されています。本研究では、MXNorm を RMSNorm のドロップイン置換として提案します。MXFP8 キャストの一部として計算されるブロックスケールのみを用いて RMS を推定し、正規化に必要なリダクションの規模を32分の1に縮小します。125M、1B、8B のパラメータを持つ Llama 3 モデルの事前学習の検証を行い、MXFP8 の matmuls を用いた RMSNorm をベースラインとした場合と比較して訓練精度の損失が最小限であることを確認しました。また、torch.compile のみを用いた MXNorm が RMSNorm に対して最大で 2.4 倍のカーネル速度向上を示し、MXFP8 の Llama 3 8B トランスフォーマ層で 1.3% のスピードアップ、NVFP4 で 2.6% のスピードアップに対応します。
MXNorm: MXFPブロックスケールの再利用による効率的なテンソル正規化
arXiv cs.LG / 2026/3/16
📰 ニュースTools & Practical UsageModels & Research
要点
- MXNormはRMSNormのドロップイン置換で、RMSをMXFP8のブロックスケールのみを用いて推定します。これにより正規化に必要なリダクションのサイズを32分の1に削減します。
- この手法は、Llama 3モデル(125M、1B、8B)の事前学習で検証され、RMSNormをベースラインとした場合の精度の低下は最小限にとどまりました。
- torch.compile のみを用いて実用的なカーネルスピードアップを最大で2.4倍達成し、Llama 3 8B のトランスフォーマー層(MXFP8)で約1.3%のスピードアップ、NVFP4で2.6%のスピードアップが報告されています。
- 既存のMXFP8スケールを再利用するハードウェア志向の最適化として、MXNormは正規化の計算量を削減し、モデルコードの大幅な変更を必要とせずに効率を向上させます。




