概要: 私たちは、平均化された部分ヤコビアンノルム(APJN)を通じて、トランスフォーマにおける初期化時のシグナル伝播を研究します。APJNは、層をまたいだ勾配増幅を測る指標です。私たちは、双方向アテンションを備えたトランスフォーマと、入力トークンの順列対称的な構成に対してAPJN解析を拡張し、層をまたいだ活性統計とAPJNの再帰関係を導出することで理論を構築します。私たちの理論は、大きな深さにおけるAPJNの漸近挙動がアテンションによってどのように変化するかを予測し、深いビジョントランスフォーマで測定されたAPJNと一致します。残差ネットワークで知られている臨界性の描像はトランスフォーマにも引き継がれます。すなわち、pre-LayerNormアーキテクチャではパワーロー型のAPJN成長が見られるのに対し、LayerNormを要素ごとの\tanhのような非線形性で置き換えたトランスフォーマでは、伸びた指数(stretched-exponential)型のAPJN成長となり、後者が劣臨界(subcritical)であることを示します。この理論をDynamic Tanh(DyT)およびDynamic erf(Derf)トランスフォーマに適用すると、これらのアーキテクチャがなぜ初期化や最適化の選択に対してより敏感になり得るのか、また安定した学習のためになぜ入念なチューニングが必要なのかを説明できます。
正規化フリー・トランスフォーマにおける初期化時のサブクリティカルな信号伝搬
arXiv cs.LG / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、層をまたいだ勾配増幅の尺度として平均化された部分ヤコビアンノルム(APJN)を用い、トランスフォーマの初期化時における信号伝搬と勾配伝搬を解析する。
- APJN理論を双方向アテンションおよび置換対称なトークン設定へと拡張し、活性統計とAPJNについての層間の漸化関係を導出する。
- その結果、アテンションは大きな深さにおける漸近的APJN挙動を変化させること、また本枠組みが深いビジョントランスフォーマで報告されているAPJNの測定結果と整合することが示される。
- 残差ネットワークとの臨界性アナロジーを見出す。すなわち、pre-LayerNormトランスフォーマではパワー則的なAPJN成長(臨界)が見られるのに対し、LayerNormをtanh型の非線形性に置き換えると、ストレッチ指数(stretched-exponential)的なAPJN成長(サブクリティカル)になる。
- この理論により、Dynamic Tanh(DyT)およびDynamic erf(Derf)トランスフォーマが初期化・最適化に対してより敏感になり得る理由が説明され、安定した学習のためには慎重なチューニングが必要であることが示唆される。




