広告

正規化の幾何学的コスト:ニューラルネットワークのベイズ的複雑性に対するアフィン境界

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LayerNormとRMSNormがどのように異なる幾何学的制約を課すかを解析する。具体的には、LayerNormは平均中心化によって線形超平面へ投影するのに対し、RMSNormは球面への射影を行う。そしてこれらの制約が、局所学習係数(Local Learning Coefficient: LLC)によって測定されるベイズ的複雑性に対して正確にどのような影響を与えるかを示す。
  • LayerNormは、後続の重み行列のLLCを正確に m/2(m=出力次元)だけ低減することを証明し、RMSNormはLLCを保持することを示す。これにより、複雑性の変化は学習に依存せず、データ・マニフォールドの幾何学によって決まることが示唆される。
  • 著者らは、コディメンション1のマニフォールドに対する幾何学的しきい値を特定する。すなわち、非ゼロの曲率を持つ場合はLLCが維持され(低下しない)、一方で、アフィン的に平坦なマニフォールドの場合にのみ、保証される m/2 の低減が生じる。
  • 有限のサンプルサイズにおいては、このしきい値が滑らかなクロスオーバーとして現れ、その幅は「曲率が存在するかどうか」ではなく、「曲率を経験するデータ分布の割合」に依存することを本論文は示している。
  • wrLLCを用いた実験により理論予測が検証され、さらに本研究は拡張として、Softmaxシンプレックス入力が、明示的な下流バイアスと組み合わせることで「混入された(smuggled)バイアス」を介して実効的な“m/2 LLC低下”を引き起こし得ることを示す。

広告