AI Navigate

FP4量子化LLMトレーニングにおける平均バイアスの呪いと祝福

arXiv cs.LG / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 論文は、FP4量子化LLMトレーニングにおける数値的不安定性の主因として、一貫したランク1の平均バイアスを同定します。これはブロック単位の量子化スケールが極端な活性化の大きさに反応することに起因します。
  • この平均バイアスは層とトレーニング段階を横断して体系的に現れ、極端な活性化大きさの大半を説明し、ダイナミックレンジを膨張させ、長尾の意味的変動を狭い数値ビンに圧縮します。
  • これは、単純なソースレベルの平均値減算で除去可能であり、重いスペクトル法を回避しつつ標準の量子化カーネルを使用します。
  • FP4の経験的結果は、平均を除去することでBF16との損失ギャップを大幅に縮小し、下流の性能を回復させることを示しており、低ビットLLMトレーニングを安定させるハードウェア効率の高い道を提供します。
大規模言語モデルは自然言語で訓練されると顕著な異方性を示します。少数の方向が過剰なエネルギーを集中させ、残りの次元は広範な意味的尾を形成します。低ビットの学習レンジでは、この幾何学は数値的不安定性を生じます。ブロックごとの量子化スケールは極端な要素大小によって決定されるため、支配的な方向がダイナミックレンジを引き延ばし、長尾の意味的変動を狭い数値ビンに圧縮します。我々は、この不安定性が主に「一貫したランク1の平均バイアス」によって引き起こされることを示します。これはLLM表現のスペクトル異方性の主要成分を構成します。この平均成分は層およびトレーニング段階を横断して系統的に現れ、多くの極端な活性化大きさを説明し、低精度下でのダイナミックレンジの膨張を引き起こします。重要なのは、支配的な不安定性がランク1であるため、単純なソースレベルの平均値減算操作によって除去できることです。このバイアス中心の条件付けは、SVDベースのスペクトル法の安定性の恩恵の大半を取り戻し、削減演算と標準の量子化カーネルだけを必要とします。FP4(W4A4G4)訓練における経験的結果は、平均除去によりBF16との損失ギャップが大幅に縮まり、下流の性能を回復させることを示しており、低ビットLLM訓練を安定させるためのハードウェア効率の高い道筋を提供します。