DAPA: 分布を考慮した区分的活性化関数によるオンデバイスのトランスフォーマー推論と訓練

arXiv cs.LG / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

DAPA は、事前活性化データの分布を活用する、オンデバイス上のトランスフォーマーモデル向けの微分可能でハードウェアに配慮した活性化関数です。
DAPA は、確率が高い領域でより細かなセグメントを持つ非均一な区分近似を用い、従来の区分線形法より一般化性能を向上させます。
分布重み付き平均二乗誤差を用いて量子化し、ハードウェア展開時の遅延とリソース使用量を削減します。
HLS 実装は、DAPA により GELU の計算を 16 倍高速化し、DSP の利用も 16 倍削減することを示しており、ビジョン・トランスフォーマーおよび GPT-2 の性能を維持または向上させます。

要旨: 非線形活性化関数は、オンデバイス推論とトレーニングにおいて極めて重要な役割を果たします。なぜなら、それらは大量のハードウェア資源を消費するだけでなく、システムの性能とエネルギー効率にも大きな影響を及ぼすためです。本研究では、前活性化データの分布を利用することで、Transformer アーキテクチャ向けの微分可能でハードウェアに優しい活性化関数である Distribution-Aware Piecewise Activation (DAPA) を提案します。 DAPA は、分布の高確率領域に細かな区間を割り当てる非一様な区分近似を採用し、従来の区分線形法より一般化性能を向上させます。得られた近似は、Distribution-Weighted Mean Square Error を用いてさらに量子化され、ハードウェア展開時の遅延と資源利用を削減します。我々の HLS 実装は、DAPA が GELU の計算を 16 倍高速化し、DSP の利用を 16 倍削減することを示し、ビジョン・Transformers および GPT-2 モデル全体で同等かそれ以上の性能を維持します。