MXNorm: MXFPブロックスケールの再利用による効率的なテンソル正規化

arXiv cs.LG / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

MXNormはRMSNormのドロップイン置換で、RMSをMXFP8のブロックスケールのみを用いて推定します。これにより正規化に必要なリダクションのサイズを32分の1に削減します。
この手法は、Llama 3モデル（125M、1B、8B）の事前学習で検証され、RMSNormをベースラインとした場合の精度の低下は最小限にとどまりました。
torch.compile のみを用いて実用的なカーネルスピードアップを最大で2.4倍達成し、Llama 3 8B のトランスフォーマー層（MXFP8）で約1.3%のスピードアップ、NVFP4で2.6%のスピードアップが報告されています。
既存のMXFP8スケールを再利用するハードウェア志向の最適化として、MXNormは正規化の計算量を削減し、モデルコードの大幅な変更を必要とせずに効率を向上させます。

要約: 行列乗算の性能は長年、ディープラーニングワークロードをスケールさせる際の主要なボトルネックであり、これはますます低精度の数値形式を用いる新しいアクセラレータの設計を促してきました。しかし、行列乗算の性能の向上は、リダクションと要素ごとの計算の性能向上をはるかに上回っており、それらは依然として高精度で実行されています。本研究では、MXNorm を RMSNorm のドロップイン置換として提案します。MXFP8 キャストの一部として計算されるブロックスケールのみを用いて RMS を推定し、正規化に必要なリダクションの規模を32分の1に縮小します。125M、1B、8B のパラメータを持つ Llama 3 モデルの事前学習の検証を行い、MXFP8 の matmuls を用いた RMSNorm をベースラインとした場合と比較して訓練精度の損失が最小限であることを確認しました。また、torch.compile のみを用いた MXNorm が RMSNorm に対して最大で 2.4 倍のカーネル速度向上を示し、MXFP8 の Llama 3 8B トランスフォーマ層で 1.3% のスピードアップ、NVFP4 で 2.6% のスピードアップに対応します。

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

note

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

note

Sakana Chatが登場しました

note

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

MXNorm: MXFPブロックスケールの再利用による効率的なテンソル正規化

要点

関連記事

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

スマホでポチポチ？ 「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

​AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ