AI Navigate

ラベルノイズ SGD を用いた2層線形ネットワークの学習ダイナミクス

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、2層の過パラメータ化線形ネットワークにおけるラベルノイズ付きSGDを研究し、暗黙のバイアスと一般化挙動を理解する。
  • 彼らは2段階の学習ダイナミクスを明らかにする:Phase I では重みが縮小し、モデルは lazy regime から脱出する。Phase II では、真の補間子との整合性が収束に向けて高まる。
  • 分析は、ラベルノイズが lazy から rich レジームへの移行を推進する主要な要因であることを強調し、その経験的な有効性を最小限の説明で示す。
  • さらに、これらの洞察を Sharpness-Aware Minimization (SAM) に拡張し、ラベルノイズSGDを支配する原理が、より広い最適化アルゴリズムにも適用されることを示す。
ディープラーニングの成功の背後にある重要な要因の1つは、勾配ベースのトレーニングアルゴリズムに内在するノイズが生み出す暗黙のバイアスにある。ノイズ付きラベルでのトレーニングがモデルの一般化を改善するという経験的観察に動機づけられ、ラベルノイズを伴う確率的勾配降下法(SGD)の背後にある基礎的なメカニズムを掘り下げる。2層の過パラメータ化された線形ネットワークに焦点を当て、ラベルノイズ SGD の学習ダイナミクスを分析し、2段階の学習挙動を明らかにする。 on \\emph{Phase I} では、モデルの重みの大きさが次第に小さくなり、モデルは怠惰なレジームから脱出して豊かなレジームに入る。 \\emph{Phase II} では、モデルの重みと真の補間関数との整合性が高まり、最終的にモデルは収束する。われわれの分析は、ラベルノイズが怠惰なレジームから豊かなレジームへの移行を導く上での決定的な役割を果たすことを強調し、その経験的な成功を最小限の説明で説明する。さらに、これらの洞察を Sharpness-Aware Minimization (SAM) に拡張し、ラベルノイズ SGD を支配する原理が、より広い最適化アルゴリズムにも適用されることを示す。合成データと実世界データの両方を用いた広範な実験は、私たちの理論を強く支持する。コードは https://github.com/a-usually/Label-Noise-SGD で公開している。