要旨: 活性化関数の選択は、深層ニューラルネットワークの最適化および性能において重要な役割を果たす。単純さと有効性のため、Rectified Linear Unit(ReLU)は依然として支配的な選択肢である。しかし、その滑らかさの欠如は、深いアーキテクチャにおける勾配ベースの最適化を妨げうる。本研究では、ゲートが対数ロジスティックCDFに従うC^{2N}-滑らかな活性化関数のファミリーを提案する。これにより、有理演算のみでReLUに似た性能を達成する。3つのバリアントを導入する。すなわち、GEM(基礎となるファミリー)、E-GEM(
evarepsilonパラメータ化された一般化で、ReLUの任意のL^p近似を可能にする)、およびSE-GEM(区分的バリアントで、C^{2N}接合の滑らかさを保ちつつ死んだニューロンを除去する)。Nのアブレーション研究により、標準的な深さのネットワークではN=1が最適であることが示され、CIFAR-100 + ResNet-56におけるGELUの欠損を6.10%から2.12%へと低減する。滑らかさパラメータNはさらに、CNNとトランスフォーマのトレードオフを明らかにする。深いCNNではN=1が好まれ、トランスフォーマではN=2が好まれる。MNISTでは、E-GEMが最良のベースライン(99.23%)と同率になる。CIFAR-10 + ResNet-56では、SE-GEM(
evarepsilon=10^{-4})がGELUを上回る(92.51% vs 92.44%)—GEMファミリーの活性化関数として初めてGELUを上回った例である。CIFAR-100 + ResNet-56では、E-GEMはGELUの欠損を6.10%(GEM N=2)からわずか0.62%へと低減する。GPT-2(124M)では、GEMが最も低いパープレキシティ(72.57。GELUは73.76)を達成し、GEM N=1でもGELU(73.32)を上回る。BERT-smallでは、E-GEM(
evarepsilon=10)が全活性化関数の中で最良の検証損失(6.656)を達成する。
evarepsilonパラメータ化は、スケール依存の最適性を示す。小さい
evarepsilon(10^{-4}〜10^{-6})は深いCNNで有利であり、一方でより大きい
evarepsilonはトランスフォーマで有利である。そして、特別なケースとして小さなトランスフォーマ(BERT-small)は、その深さが限られ勾配が制約されないため、大きい
evarepsilon(
evarepsilon=10)の恩恵を受ける。




