正規化の幾何学的コスト：ニューラルネットワークのベイズ的複雑性に対するアフィン境界

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、LayerNormとRMSNormがどのように異なる幾何学的制約を課すかを解析する。具体的には、LayerNormは平均中心化によって線形超平面へ投影するのに対し、RMSNormは球面への射影を行う。そしてこれらの制約が、局所学習係数（Local Learning Coefficient: LLC）によって測定されるベイズ的複雑性に対して正確にどのような影響を与えるかを示す。
LayerNormは、後続の重み行列のLLCを正確に m/2（m＝出力次元）だけ低減することを証明し、RMSNormはLLCを保持することを示す。これにより、複雑性の変化は学習に依存せず、データ・マニフォールドの幾何学によって決まることが示唆される。
著者らは、コディメンション1のマニフォールドに対する幾何学的しきい値を特定する。すなわち、非ゼロの曲率を持つ場合はLLCが維持され（低下しない）、一方で、アフィン的に平坦なマニフォールドの場合にのみ、保証される m/2 の低減が生じる。
有限のサンプルサイズにおいては、このしきい値が滑らかなクロスオーバーとして現れ、その幅は「曲率が存在するかどうか」ではなく、「曲率を経験するデータ分布の割合」に依存することを本論文は示している。
wrLLCを用いた実験により理論予測が検証され、さらに本研究は拡張として、Softmaxシンプレックス入力が、明示的な下流バイアスと組み合わせることで「混入された（smuggled）バイアス」を介して実効的な“m/2 LLC低下”を引き起こし得ることを示す。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

正規化の幾何学的コスト：ニューラルネットワークのベイズ的複雑性に対するアフィン境界

要点

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer