指数関数を手なずける:整数ネイティブなエッジ推論のための高速ソフトマックス代替(サロゲート)
arXiv cs.LG / 2026/4/3
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、低精度・小型モデルの推論におけるTransformerのマルチヘッド注意で、ソフトマックスが計算ボトルネックになる点に取り組む。指数関数演算と正規化はコストが高い。
- 最大(max)で中心化した注意ロジットに対してクリップ付き線形写像を用いる、上限付きかつ単調な代替関数「Head-Calibrated Clipped-Linear Softmax(HCCS)」を提案し、ロジットの順序付けを保ちつつ安定した非負の確率を生成する。
- HCCSでは、代表的なデータセット上でオフライン最適化した、軽量な注意ヘッドごとのキャリブレーション(校正)パラメータを導入することで、各ヘッドの統計的性質を維持し、従来のソフトマックス代替手法より改善する。
- 著者らは、AMD Versal AI Enginesを対象としたハードウェア指向の実装を示し、exp/LUTのボトルネックを回避しつつint8のMACユニットをより良く活用できると主張する。
- 彼らは、int8で最適化したHCCSが、AMDの参照実装に比べてスループットを向上させ、さらに量子化対応再学習(quantization-aware retraining)後には、小規模または強く量子化されたMHAワークロードにおいて競争力のある精度を維持することを報告している。




