LayerNormを取り除くのはいつ有効か？活性の境界付けがレジーム依存の暗黙的正則化となる場合

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、Dynamic Tanh（DyT）によってLayerNormを除去し、学習されたtanh(αx)で活性を境界付けする手法を提案し、その置換が常に有利というよりは「暗黙的正則化」として働くと主張しています。
GPT-2ファミリー（64M〜3.78Bパラメータ）やトークン量の異なるレジーム（1M vs 118M）での検証に加え、Llama・ViTでの確認でも、DyTの効果がレジーム依存であることが示され、64M/1Mでは検証損失が27.3%改善する一方、64M/118Mでは18.8%悪化します。
著者らは機構の裏付けとして活性の飽和を直接測定し、1Mでは飽和が49%と高いのに対して118Mでは23%と低いことを報告し、飽和に基づくヒューリスティックで挙動の分類も行っています。
「レジーム依存の暗黙的正則化」という説明は、いくつかの介入でも支持されます。HardTanhは同様のパターンを再現し、118Mでαを増やすとペナルティが低下し、バニラモデルにdropout（p=0.5）を加えた場合もDyTのデータ豊富側の損失と一致します。
Llamaでは失敗モード（“collapse”）をSwiGLUのゲーティングに局所化し、アブレーションによって「飽和に伴うcollapse」と通常の収束を切り分けています（ただし、計算が制限されたトレーニングで、Chinchilla最適性未満の範囲）。

要旨: Dynamic Tanh (DyT) は、学習された tanh(alpha x) で活性を有界化することにより LayerNorm を取り除く。この有界化は、一様に有益な置換ではなく、レジーム依存の暗黙的正則化であることを示す。パラメータ 64M から 3.78B、トークン 1M から 118M にまたがる GPT-2 系モデルと、Llama と ViT によるクロスチェックにおいて、DyT は 64M/1M では検証損失を 27.3% 改善する一方、64M/118M では 18.8% 悪化する。1M における利益はキャパシティとともに消え（+1.7% at 3.78B）、118M におけるペナルティは +27.9% に達する。機構は測定可能である: DyT の活性の 49% が 1M で 1 に飽和するのに対し、118M では 23% である。また 500 ステップの飽和ヒューリスティックにより、12 セルの GPT-2 キャリブレーションセット上で DyT の符号を「生の in-sample 精度」75% で分類できる（AUC 0.75; Scale 5 ストレスセルを追加すると 64%）。Llama の 3/3 のチェックを正しくラベル付けするが、「50% 生の leave-one-scale-out 精度」にしか到達しない。有界化の説明を支持する 3 つの介入がある: HardTanh はレジームパターンを再現し、118M で alpha を単調に増加させると DyT のペナルティが低下し、さらに vanilla+dropout(p=0.5) は DyT のデータ豊富な損失を一致させる。また、Llama-DyT の崩壊（collapse）を SwiGLU のゲーティングに局在化し、3 シードの成分アブレーションにおいて（r=0.94）飽和が収束とは別に崩壊を分離することを示す。範囲: すべての実験は計算制限下（T/P < 1.84）で行われており、Chinchilla 最適な学習量より下である。