CodeQuant:低精度Mixture-of-Expertsにおける外れ値スムージングを強化するための統一クラスタリングおよび量子化

arXiv cs.LG / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、Mixture-of-Experts(MoE)の大規模モデルに対して低精度の事後学習量子化(PTQ)を適用する際、精度を維持する上で外れ値が重要なボトルネックになることを示している。
  • 学習可能な回転によって活性(activation)の外れ値をスムージングし、クラスタリングによって重みの外れ値を微調整されたクラスタ中心(centroid)に吸収する、統一的なアプローチとしてCodeQuantを提案する。
  • 極端な値の影響を低減しつつモデルの表現力を保持することで、CodeQuantは従来のスムージング/量子化手法と比べて量子化誤差を抑える。
  • 本手法にはGPUおよびCPU向けの専用カーネルが含まれており、最大4.15×の高速化と、複数のMoEモデルバリアントにおける精度向上を実現する。
  • 著者らはGitHubでオープンソース実装を提供しており、CodeQuantを低精度制約下でMoE LLMをデプロイするための実用的な方向性として位置付けている。

概要: 外れ値(アウトライヤー)は、低精度の大規模モデルの精度を維持するうえで、基盤的なボトルネックとして現れてきました。特に、ますます大規模言語モデリングの中心となっているMixture-of-Experts(MoE)アーキテクチャにおいて顕著です。事後学習量子化(PTQ)では、これらの外れ値が大きな量子化誤差を引き起こし、その結果、深刻な精度劣化につながります。最近提案された回転ベースの平滑化(smoothing)手法は、外れ値の大きさを再分配することで問題を緩和しますが、残存誤差が残り、信頼できる低精度のデプロイメントをなお妨げ続けています。
本研究では、この課題に対処するために、MoE向けに、学習可能な回転によって平滑化(smoothing)時の活性外れ値を抑え、微調整されたクラスタ重心に重み外れ値を吸収させる、統一型の量子化・クラスタリング方式である\textit{CodeQuant}を導入します。この設計により、極端な値の影響を、それらをクラスタ重心の中に収めることで低減し、その結果として表現力を維持しつつ量子化誤差を下げます。さらにGPUおよびCPU向けの専用カーネル設計と組み合わせることで、CodeQuantは最大で4.15\timesの速度向上を実現しつつ、幅広いMoEモデルにおいて最先端の量子化手法よりも大幅に高い精度を提供します。これらの結果は、低精度制約のもとでMoEベースの大規模言語モデルを効率的かつ正確にデプロイするための有望な方向性としてCodeQuantを示しています。コードは https://github.com/SAI-Lab-NYU/CodeQuant で公開しています。