Geometric Monomial(GEM):2N階微分可能な活性化関数ファミリー(有理関数ベース)

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、C^{2N}-階微分可能で有理演算のみで動作する「Geometric Monomial(GEM)」活性化関数ファミリーを提案し、非有理計算に頼らずにReLUに近い最適化挙動の実現を目指します。
  • 提案は3つのバリアントで構成されます:GEM(基本形)、E-GEM(epsilonパラメータでReLUを任意のL^p近似できる拡張)、SE-GEM(デッドニューロンを除去しつつ、接合部のC^{2N}な滑らかさを保つ区分的形)です。
  • アブレーションと実験から、N=1が標準的な深さのネットワークで最適と示され、さらにアーキテクチャにより好まれる滑らかさ次数が変わり、深いCNNはN=1を、トランスフォーマーはN=2を好む傾向が示されます。
  • GEMファミリーは複数ベンチマークで改善を示し、CIFAR-10 + ResNet-56ではSE-GEMがGELUを上回る(92.51% vs 92.44%)ほか、CIFAR-100 + ResNet-56ではGELUとの差を0.62%まで縮小し、GPT-2では最良のパープレキシティを達成(72.57 vs 73.76 for GELU)しています。
  • E-GEMのepsilonパラメータはスケール依存の最適値を持ち、深いCNNでは小さめのepsilon(10^{-4}〜10^{-6})が有利になりやすい一方、BERT-smallのような浅いトランスフォーマーでは大きめのepsilon(epsilon=10)が有効で、検証損失6.656(最良)を報告しています。

要旨: 活性化関数の選択は、深層ニューラルネットワークの最適化および性能において重要な役割を果たす。単純さと有効性のため、Rectified Linear Unit(ReLU)は依然として支配的な選択肢である。しかし、その滑らかさの欠如は、深いアーキテクチャにおける勾配ベースの最適化を妨げうる。本研究では、ゲートが対数ロジスティックCDFに従うC^{2N}-滑らかな活性化関数のファミリーを提案する。これにより、有理演算のみでReLUに似た性能を達成する。3つのバリアントを導入する。すなわち、GEM(基礎となるファミリー)、E-GEM(

evarepsilonパラメータ化された一般化で、ReLUの任意のL^p近似を可能にする)、およびSE-GEM(区分的バリアントで、C^{2N}接合の滑らかさを保ちつつ死んだニューロンを除去する)。Nのアブレーション研究により、標準的な深さのネットワークではN=1が最適であることが示され、CIFAR-100 + ResNet-56におけるGELUの欠損を6.10%から2.12%へと低減する。滑らかさパラメータNはさらに、CNNとトランスフォーマのトレードオフを明らかにする。深いCNNではN=1が好まれ、トランスフォーマではN=2が好まれる。MNISTでは、E-GEMが最良のベースライン(99.23%)と同率になる。CIFAR-10 + ResNet-56では、SE-GEM(

evarepsilon=10^{-4})がGELUを上回る(92.51% vs 92.44%)—GEMファミリーの活性化関数として初めてGELUを上回った例である。CIFAR-100 + ResNet-56では、E-GEMはGELUの欠損を6.10%(GEM N=2)からわずか0.62%へと低減する。GPT-2(124M)では、GEMが最も低いパープレキシティ(72.57。GELUは73.76)を達成し、GEM N=1でもGELU(73.32)を上回る。BERT-smallでは、E-GEM(

evarepsilon=10)が全活性化関数の中で最良の検証損失(6.656)を達成する。

evarepsilonパラメータ化は、スケール依存の最適性を示す。小さい

evarepsilon(10^{-4}10^{-6})は深いCNNで有利であり、一方でより大きい

evarepsilonはトランスフォーマで有利である。そして、特別なケースとして小さなトランスフォーマ(BERT-small)は、その深さが限られ勾配が制約されないため、大きい

evarepsilon(

evarepsilon=10)の恩恵を受ける。