適応的ブロックスケールデータ型

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、NVFP4 の4ビット量子化の重要な制約として、誤差分布が各16値ブロック内の最大値付近で極端に大きな量子化誤差を生み得る点を指摘している。
そこで、Adaptive Block-Scaled Data Types（適応的ブロックスケールデータ型）を提案し、特に IF4 を導入する。これは、16値グループごとに FP4 と INT4 のどちらを用いるかを選択し、E4M3 のスケール係数（符号ビットでエンコード）を用いることで入力分布により適合させる。
著者らは、この適応的な発想を他のビット幅にも拡張しており、IF3 や IF6 を含め、固定フォーマット方式を超えて量子化挙動の改善を狙っている。
言語モデルに対する実験では、IF4 は量子化学習中の損失を低減し、既存の4ビット・ブロックスケール形式と比べてポストトレーニング量子化の精度を向上させることが示されている。
実デプロイを見据えるため、本研究では IF4 の Multiply-Accumulate（MAC）ユニットを設計・評価し、引用された GitHub リポジトリを通じてコードも提供している。これにより、ハードウェアアクセラレータで効率的に実装できることを示唆している。

Abstract

NVFP4は、そのハードウェア対応と、パラメータあたり比較的少ないビット数で有用な情報を保持できることから、大規模言語モデルの量子化における4ビット形式としてますます人気が高まっています。しかし、この形式には限界もあります。最近の研究では、NVFP4が誤差分布の影響を受け、その結果、16個の値からなる各グループにおいて、ほぼ最大値に対して大量の量子化誤差が生じることが示されています。本研究では、この洞察を活用して、入力値の分布に適応できる新しいAdaptive Block-Scaled Data Typesを設計します。4ビット量子化では、提案するIF4（Int/Float 4）データ型が、各16値グループごとにFP4表現とINT4表現のいずれかを選択し、そしてNVFP4で行っているのと同様にE4M3のスケール因子でスケーリングします。選択されたデータ型は、現在NVFP4で未使用となっているスケール因子の符号ビットで表されます。さらに、この洞察を適用してIF3やIF6を含む他のビット幅のフォーマットも設計します。言語モデルの量子化に用いると、IF4は既存の4ビットブロックスケールド形式よりも優れており、量子化学習中の損失をより低く抑え、ポストトレーニング量子化における多くのタスクで高い精度を達成することが分かります。加えて、IF4が次世代のハードウェアアクセラレータ上で効率よく実装可能であることを示すために、IF4のMultiply-Accumulate（MAC）ユニットも設計・評価します。コードは https://github.com/mit-han-lab/fouroversix で公開しています。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

適応的ブロックスケールデータ型

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer