要旨: 学習済みモデルに関する経験的研究では、過学習が支配する前に、有限の勾配降下の時間窓内で信号が検出可能となる一過性のレジームが報告されることが多い。われわれは、線形の教師--学生設定における勾配フローに対して、この現象を再現する解析的に扱えるランダム行列モデルを提示する。この枠組みでは、学習は、ノイズに満ちたバルクから孤立した固有値が分離することで生じるが、その後は過学習レジームで最終的に消失する。主要な要素は、入力共分散における異方性であり、学習ダイナミクスにおいて速い方向と遅い方向を生み出す。二ブロック共分散モデルでは、対称化した重み行列のバルクスペクトルの全時間依存の形を、2\times 2 のダイソン方程式によって導出し、位数1の教師に対して、位数2の行列式の公式を用いて明示的なアウトライア条件を得る。これにより、一過性の Baik-Ben Arous-P\'ech\'e (BBP) 転移が得られる。すなわち、信号強度と共分散の異方性に応じて、教師スパイクは決して現れないこともあれば、現れて持続することもあれば、バルクに再吸収される前に中間の時間間隔のみに現れることもある。対応する相図を描き、有限サイズのシミュレーションによって理論を検証する。われわれの結果は、異方性とノイズによって駆動される一過性のスペクトル効果としての早期停止に対する、最小限の解析可能なメカニズムを提供する。
初期停止勾配フローのランダム行列理論:一過的なBBPシナリオ
arXiv stat.ML / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、線形の教師—生徒モデルにおける勾配フローを対象に、過学習が支配する前に「有限の学習時間窓で信号が検出可能」な一過的レジームを再現する、解析的に扱えるランダム行列モデルを提示しています。
- 学習は、ノイズを含むスペクトルのバルクから孤立した固有値が分離するかどうかに依存し、その固有値は時間と条件によって現れ続けることも、やがてバルクに吸収されて消えることもあります。
- 中核となる要因は入力共分散の異方性であり、これが学習ダイナミクスにおける速い方向と遅い方向を生み、一時的に変化するバルクスペクトルにつながることを示します。
- 二ブロック共分散の具体例ではDyson方程式の手法により時間依存のバルクスペクトルを導出し、階数1教師の場合を含めて外れ値(アウトライヤ)の明示的な条件を導きます。
- その結果、信号強度と異方性に応じて教師のスパイクがそもそも現れない/現れて持続する/中間時間帯でのみ現れて最終的にバルクへ再吸収される、といった“時間依存の一過的BBP転移”が得られること、さらに相図と有限サイズシミュレーションで検証しています。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA