この論文、ICLRのGRaMワークショップに受理されたばかりの、単純な問いを投げかけます:
勾配降下法は活性化空間で系統的に誤った一歩を踏み出すのか?
以下のことが示されています:
パラメータは最急降下の一歩を踏み出す; 活性化はそうではない
この論文は、単純なアフィン層、畳み込み、および注意機構に対して、これを数学的に実証しています。
その作業は次に、これに対処する解決策を探ります。
解決策は結果として、正規化がなぜ全体に役立つのかについて、もう一つの機序的説明を提供する可能性があり、二つの構造的に異なる修正が現れます。既存の(L2/RMS)正規化器と新しい形の全結合層(MLP)です。
導出されるものは:
- 新しい形のアフィン様層(別名、全結合/線形層の新しい形)。 内部に正規化を内蔵しつつ DOF を保持する(典型的な正規化器とは異なる)。したがって、MLP の新しい代替層アーキテクチャである。
- 新しい正規化器の族: 「PatchNorm」 畳み込み用、経験的探索の新しい方向を切り開く。
経験的な結果には:
- このアフィン様の解はスケール不変ではなく、正規化器ではないが、制御されたMLPアブレーション実験で一貫して BatchNorm/LayerNorm と同等かそれを上回ることが観察されており—スケール不変性が主要な機構ではないことを示唆しているが、むしろこのずれかもしれない。
- このフレームワークは、明確で反証可能な予測を立てます: バッチサイズを増やすと、発散を是正する層の性能が悪化すべきである。この直感に反する効果は経験的に観察され、BatchNorm や標準的なアフィン層では成り立たない。理論を裏付ける。
これが面白くて、読む価値があると良いと思います。
- いくつかの(できれば)興味深い直感を散りばめて追加しました。例えば、LayerNorm の平均を再重み付けすることの影響、RMSNorm が sqrt-n 因子を必要とする理由、正規化器と活性化関数を統合する理由などです。すべて驚くべき新しい洞察であることを願っています—ご意見をお聞かせください。
ご質問には喜んでお答えします :-)
[ResearchGateの代替リンク] [査読]
[リンク] [コメント]




