ZC-Swish:エッジおよびマイクロバッチ用途向けにBNなしの深いネットワークを安定化する手法

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • バッチ正規化(BN)はマイクロバッチや非IIDのフェデレーテッドラーニング環境で破綻しやすく、BNを深いアーキテクチャから外すと学習が壊滅的に不安定化することがある。
  • 本論文では、SwishやReLUのような一般的な活性化関数がゼロ中心でない性質により、ネットワークの深さが増えるにつれて活性の平均シフトが蓄積し不安定さを助長すると指摘している。
  • そこで、活性の平均を動的にゼロ近傍へアンカーすることを目的とした、プラグイン型のパラメータ化活性化関数「Zero-Centered Swish(ZC-Swish)」を提案する。
  • 深さ8・16・32でBNなしの畳み込みネットワークをストレステストした結果、標準Swishは深さ16以降でほぼランダムに近い性能へ崩れる一方、ZC-Swishは層ごとの活性ダイナミクスを維持し、深さ16で最良のテスト精度(seed 42で51.5%)を達成した。
  • 著者らは、ZC-Swishを、メモリ制約のあるエッジ実装や、正規化層が使いにくいプライバシー保全型アプリケーション向けに、深いモデルの学習を安定化するパラメータ効率の高い解として位置づけている。