要旨: Dynamic Tanh (DyT) は、学習された tanh(alpha x) で活性を有界化することにより LayerNorm を取り除く。 この有界化は、一様に有益な置換ではなく、レジーム依存の暗黙的正則化であることを示す。パラメータ 64M から 3.78B、トークン 1M から 118M にまたがる GPT-2 系モデルと、Llama と ViT によるクロスチェックにおいて、DyT は 64M/1M では検証損失を 27.3% 改善する一方、64M/118M では 18.8% 悪化する。1M における利益はキャパシティとともに消え(+1.7% at 3.78B)、118M におけるペナルティは +27.9% に達する。機構は測定可能である: DyT の活性の 49% が 1M で 1 に飽和するのに対し、118M では 23% である。また 500 ステップの飽和ヒューリスティックにより、12 セルの GPT-2 キャリブレーションセット上で DyT の符号を「生の in-sample 精度」75% で分類できる(AUC 0.75; Scale 5 ストレスセルを追加すると 64%)。Llama の 3/3 のチェックを正しくラベル付けするが、「50% 生の leave-one-scale-out 精度」にしか到達しない。 有界化の説明を支持する 3 つの介入がある: HardTanh はレジームパターンを再現し、118M で alpha を単調に増加させると DyT のペナルティが低下し、さらに vanilla+dropout(p=0.5) は DyT のデータ豊富な損失を一致させる。 また、Llama-DyT の崩壊(collapse)を SwiGLU のゲーティングに局在化し、3 シードの成分アブレーションにおいて(r=0.94)飽和が収束とは別に崩壊を分離することを示す。 範囲: すべての実験は計算制限下(T/P < 1.84)で行われており、Chinchilla 最適な学習量より下である。
LayerNormを取り除くのはいつ有効か?活性の境界付けがレジーム依存の暗黙的正則化となる場合
arXiv cs.LG / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、Dynamic Tanh(DyT)によってLayerNormを除去し、学習されたtanh(αx)で活性を境界付けする手法を提案し、その置換が常に有利というよりは「暗黙的正則化」として働くと主張しています。
- GPT-2ファミリー(64M〜3.78Bパラメータ)やトークン量の異なるレジーム(1M vs 118M)での検証に加え、Llama・ViTでの確認でも、DyTの効果がレジーム依存であることが示され、64M/1Mでは検証損失が27.3%改善する一方、64M/118Mでは18.8%悪化します。
- 著者らは機構の裏付けとして活性の飽和を直接測定し、1Mでは飽和が49%と高いのに対して118Mでは23%と低いことを報告し、飽和に基づくヒューリスティックで挙動の分類も行っています。
- 「レジーム依存の暗黙的正則化」という説明は、いくつかの介入でも支持されます。HardTanhは同様のパターンを再現し、118Mでαを増やすとペナルティが低下し、バニラモデルにdropout(p=0.5)を加えた場合もDyTのデータ豊富側の損失と一致します。
- Llamaでは失敗モード(“collapse”)をSwiGLUのゲーティングに局所化し、アブレーションによって「飽和に伴うcollapse」と通常の収束を切り分けています(ただし、計算が制限されたトレーニングで、Chinchilla最適性未満の範囲)。




