ILDR:グロッキングの幾何学的早期検出

arXiv cs.LG / 2026/4/24

📰 ニュースModels & Research

要点

  • 本論文は、2つ手前(second-to-last)層の表現から計算する幾何学的指標ILDR(Inter/Intra-class Distance Ratio)により、「grokking」を検証精度の改善より前に早期検出する手法を提案する。
  • 既存の間接的なシグナル(重みノルムやGrokFastのスローな勾配EMAなど)と異なり、ILDRは明確に上昇し、検証側でのgrokking転移が現れる前にベースラインの2.5倍で閾値を超える。
  • ILDRはFisherの線形判別基準に基づき、固有分解を必要とせず、計算効率も高い(O(|C|^2 + N))うえ、評価はホールドアウトデータのみで行うため記憶化の影響を抑えられる。
  • モジュラ算術および置換群合成(S5)での実験では、ILDRがgrokking転移に対して訓練予算の9〜73%分リードし、多数の乱数シード間でもタイミングが比較的一貫しており、転移後の分散が大幅に低下する。
  • ILDRを早期停止トリガとして用いると学習が平均18.6%短縮され、ILDR閾値でのオプティマイザ介入により転移の制御が双方向に可能であることから、ILDRは一般化を左右する表現状態を捉えていることが示唆される。