Neural Collapse Dynamics：深さ、活性化、正則化、特徴ノルムのしきい値

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ニューラル・コラプス（直前層の特徴が単体の等角緊密フレームへ収束する現象）がどのように始まるかを調べ、平衡状態の理解にとどまらず、発現の立ち上がりダイナミクスを特徴づける。
モデルとデータセットに固有な臨界しきい値 f_{n}* を、平均特徴ノルムが横切ったときにニューラル・コラプスが生じるという予測的な規則性を提案する。このしきい値は、各（モデル、データセット）ペアの範囲では、訓練条件に対して概ね不変である。
標準的な訓練軌道では、特徴ノルムのしきい値の横切りがニューラル・コラプスの発現に先行し、その平均リードタイムは62エポックであることが一貫して観測され、実用的なタイミング予測が可能になる。
勾配フロー介入の実験により、f_{n}* が安定なアトラクタとして振る舞うことが示される。特徴スケールに対する摂動は訓練中に自己修正され、同じしきい値の値へ収束する。
（アーキテクチャ）×（データセット）の格子全体で最も強い結果は、MNISTに対する大きなアーキテクチャ効果である（例：ResNet-20で f_{n}* = 5.867）。また、非加法的な相互作用が強く観測され、さらに重み減衰や幅による加速効果によって支配される位相図のような挙動も見られる。

Abstract

ニューラル・コラプス（NC）-- 後半層（penultimate-layer）の特徴が、等角緊密フレームの単体（simplex）へ収束すること -- は平衡状態においてよく理解されていますが、その立ち上がり（onset）を支配するダイナミクスは未だ十分に特徴付けられていません。私たちは、単純で予測力のある規則性を同定します：NCは、平均特徴ノルムが、モデル・データセット固有の臨界値 f_n* に到達したときに生じます。この値は学習条件に対してほぼ不変です。f_n* は各（モデル, データセット）組の中で非常に狭い範囲に集中します（CV < 8%）。学習ダイナミクスは主に、f_n が f_n* に近づく速度に影響し、f_n* そのものには主として影響しません。標準的な学習軌跡では、f_n が f_n* を下回ることが一貫して NC の立ち上がりに先行し、実用的な予測因子となります。平均リード時間は62エポックです（MAE 24エポック）。直接介入の実験により、f_n* が勾配流（gradient flow）の安定したアトラクタであることが確認されます――特徴スケールへの摂動は学習中に自己修正され、方向に依らず同じ値へ収束します（p>0.2）。(アーキテクチャ)×(データセット) のグリッドを完成させることで、この論文の最も強い結果が明らかになります：MNIST 上での ResNet-20 では f_n* = 5.867 であり、CIFAR-10 での +68% に対して +458% の「アーキテクチャ効果」が得られます。グリッドは強く非加法的であり、f_n* はアーキテクチャとデータセットの寄与に独立に分解できません。4つの構造的規則性が現れます：（1）深さは、コラプス速度に対して非単調な効果を持つ；（2）活性化（activation）がコラプス速度と f_n* の両方を同時に決定する；（3）重み減衰（weight decay）は3レジームの相図を定める――少なすぎると遅くなり、最適範囲が最速で、多すぎるとコラプスを妨げる；（4）幅（width）はコラプスを単調に加速させる一方で、f_n* を最大13%までしかシフトしない。これらの結果は、特徴ノルムのダイナミクスを、NCのタイミングを予測するための実行可能な診断指標として確立するものであり、ノルム閾値に関するふるまいが、深いネットワークにおける遅延した表現の再編成を支える一般的なメカニズムであることを示唆します。