AdaHOP: 外れ値パターンに対応した回転による高速かつ高精度な低精度学習

arXiv cs.LG / 2026/4/6

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、LLMの低精度学習において固定のハダマール変換を用いるだけでは効果がないことが示される。理由は、外れ値(アウトライヤー)の構造が重み、活性(アクティベーション)、勾配で異なり、異なる「平滑化(スムージング)の方向」が必要になるためである。
  • 外れ値パターンを3種類(行方向、列方向、なし)に分類し、それぞれのパターンの組み合わせに応じて、ハダマールの方向や外れ値処理の方策を個別に最適化することで、量子化誤差を低減できることを示す。
  • AdaHOPでは、行列積ごとに、Inner Hadamard Transform(IHT)と、IHTに加えて選択的なOutlier Extraction(OE)を行う手法のいずれかを適応的に選択する。支配的な外れ値を高精度パスへルーティングすることで対応する。
  • ハードウェアを意識したTritonカーネルを用いることで、MXFP4精度において報告上BF16学習品質を達成しつつ、BF16のフル精度学習に対して最大3.6×のメモリ圧縮と1.8×のカーネル加速を提供できるとしている。