Geometric Monomial（GEM）：2N階微分可能な活性化関数ファミリー（有理関数ベース）

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、C^{2N}-階微分可能で有理演算のみで動作する「Geometric Monomial（GEM）」活性化関数ファミリーを提案し、非有理計算に頼らずにReLUに近い最適化挙動の実現を目指します。
提案は3つのバリアントで構成されます：GEM（基本形）、E-GEM（epsilonパラメータでReLUを任意のL^p近似できる拡張）、SE-GEM（デッドニューロンを除去しつつ、接合部のC^{2N}な滑らかさを保つ区分的形）です。
アブレーションと実験から、N=1が標準的な深さのネットワークで最適と示され、さらにアーキテクチャにより好まれる滑らかさ次数が変わり、深いCNNはN=1を、トランスフォーマーはN=2を好む傾向が示されます。
GEMファミリーは複数ベンチマークで改善を示し、CIFAR-10 + ResNet-56ではSE-GEMがGELUを上回る（92.51% vs 92.44%）ほか、CIFAR-100 + ResNet-56ではGELUとの差を0.62%まで縮小し、GPT-2では最良のパープレキシティを達成（72.57 vs 73.76 for GELU）しています。
E-GEMのepsilonパラメータはスケール依存の最適値を持ち、深いCNNでは小さめのepsilon（10^{-4}〜10^{-6}）が有利になりやすい一方、BERT-smallのような浅いトランスフォーマーでは大きめのepsilon（epsilon=10）が有効で、検証損失6.656（最良）を報告しています。

要旨: 活性化関数の選択は、深層ニューラルネットワークの最適化および性能において重要な役割を果たす。単純さと有効性のため、Rectified Linear Unit（ReLU）は依然として支配的な選択肢である。しかし、その滑らかさの欠如は、深いアーキテクチャにおける勾配ベースの最適化を妨げうる。本研究では、ゲートが対数ロジスティックCDFに従う $C^{2N}$ -滑らかな活性化関数のファミリーを提案する。これにより、有理演算のみでReLUに似た性能を達成する。3つのバリアントを導入する。すなわち、GEM（基礎となるファミリー）、E-GEM（

evarepsilonパラメータ化された一般化で、ReLUの任意の $L^p$ 近似を可能にする）、およびSE-GEM（区分的バリアントで、 $C^{2N}$ 接合の滑らかさを保ちつつ死んだニューロンを除去する）。 $N$ のアブレーション研究により、標準的な深さのネットワークでは $N=1$ が最適であることが示され、CIFAR-100 + ResNet-56におけるGELUの欠損を6.10%から2.12%へと低減する。滑らかさパラメータ $N$ はさらに、CNNとトランスフォーマのトレードオフを明らかにする。深いCNNでは $N=1$ が好まれ、トランスフォーマでは $N=2$ が好まれる。MNISTでは、E-GEMが最良のベースライン（99.23%）と同率になる。CIFAR-10 + ResNet-56では、SE-GEM（

evarepsilon=10^{-4}）がGELUを上回る（92.51% vs 92.44%）—GEMファミリーの活性化関数として初めてGELUを上回った例である。CIFAR-100 + ResNet-56では、E-GEMはGELUの欠損を6.10%（GEM $N=2$ ）からわずか0.62%へと低減する。GPT-2（124M）では、GEMが最も低いパープレキシティ（72.57。GELUは73.76）を達成し、GEM $N=1$ でもGELU（73.32）を上回る。BERT-smallでは、E-GEM（

evarepsilon=10）が全活性化関数の中で最良の検証損失（6.656）を達成する。

evarepsilonパラメータ化は、スケール依存の最適性を示す。小さい

evarepsilon（ $10^{-4}$ 〜 $10^{-6}$ ）は深いCNNで有利であり、一方でより大きい

evarepsilonはトランスフォーマで有利である。そして、特別なケースとして小さなトランスフォーマ（BERT-small）は、その深さが限られ勾配が制約されないため、大きい

evarepsilon（

evarepsilon=10）の恩恵を受ける。