AdaHOP: 外れ値パターンに対応した回転による高速かつ高精度な低精度学習
arXiv cs.LG / 2026/4/6
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文では、LLMの低精度学習において固定のハダマール変換を用いるだけでは効果がないことが示される。理由は、外れ値(アウトライヤー)の構造が重み、活性(アクティベーション)、勾配で異なり、異なる「平滑化(スムージング)の方向」が必要になるためである。
- 外れ値パターンを3種類(行方向、列方向、なし)に分類し、それぞれのパターンの組み合わせに応じて、ハダマールの方向や外れ値処理の方策を個別に最適化することで、量子化誤差を低減できることを示す。
- AdaHOPでは、行列積ごとに、Inner Hadamard Transform(IHT)と、IHTに加えて選択的なOutlier Extraction(OE)を行う手法のいずれかを適応的に選択する。支配的な外れ値を高精度パスへルーティングすることで対応する。
- ハードウェアを意識したTritonカーネルを用いることで、MXFP4精度において報告上BF16学習品質を達成しつつ、BF16のフル精度学習に対して最大3.6×のメモリ圧縮と1.8×のカーネル加速を提供できるとしている。




