行列乗算のための最適スカラー量子化: 閉形式密度関数と位相遷移

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、行列乗算の前に A と B の要素ごとのスカラー量子化を研究し、ペア-i.i.d. 内積モデルの下で行列乗算の MSE を導出し、高解像度領域で正確な最適定数を含む鋭い K^{-2} 漸近展開を得た。
相関を有するガウス対に対して、最適な中心密度 λ*(u) を閉形式で導出し、λ*(u) は exp(-u^2/6) ((1-ρ^2) + ρ^2 u^2)^{1/3} に比例する。ここで u = x/σ_X、y については対称な結果が得られる。
相関に起因する位相遷移を特定: 密度は |ρ| ≤ 1/√3 のとき原点で単峰性を示し、|ρ| > 1/√3 のとき二峰性となり、ピークは u_peak = ±√(3 - 1/ρ^2) に現れる。
本論文は、行列乗算の量子化と最小二乗法最適化に関する合成実験での適用性、および大規模言語モデルのキーとクエリの活性化の量子化への適用性を実証する。
これらの結果は、機械学習の導入において AB-MSE（AとBの積の平均二乗誤差）を最小化するような量子化器設計の実用的指針を提供し、効率の向上につながる可能性がある。

要約: 私たちは、掛け算の前に行列の各要素に対するスカラー量子化を研究します。与えられた $A\in R^{m\times k}$ および $B\in R^{k\times n}$ 、 $A$ および $B$ の各要素を独立に、各要素あたり $K_X$ および $K_Y$ レベルのスカラー量子化器を用いて量子化し、 $\widehat C=\widehat A\,\widehat B$ を形成します。目的は、対の i.i.d.\ inner-product model の下で、行列積の平均二乗誤差（MSE） $E[\|{AB-\widehat A\widehat B}\|_F^2]$ を最小化することです。高分解能領域では $K_X,K_Y\to\infty$ 、 $\mathcal{E}$ の鋭い $K^{-2}$ 漸近展開を導出し、正確な最適な先行定数を特定し、条件付き二次モーメントに基づく漸近的に最適な量子化中心密度を特徴づけます。次に相関のあるガウス乗法対へ特化し、閉形式の最適点密度
[ \lambda^\star(u)\ \propto\ \exp\!\left(-\frac{u^2}{6}\right)\bigl((1-\rho^2)+\rho^2u^2\bigr)^{1/3}, \qquad u=\frac{x}{\sigma_X}, \] $y/\sigma_Y$ に対しても同じ形を取り、相関に起因する相転移を証明します：密度は原点で単峰性で、 $|\rho|\leq 1/\sqrt{3}$ のとき、 $|\rho|>1/\sqrt{3}$ のときには二峰性となり、ピークは $u_{\mathrm{peak}}=\pm\sqrt{3-1/\rho^2}$ に現れます。私たちは、合成実験としての行列積量子化や最小二乗法最適化などで手法の適用性を示すと同時に、巨大言語モデルのキーおよびクエリ活性化の量子化にも適用可能であることを示します。