抽象から知能へ:Grokkingの理解
arXiv cs.AI / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 論文では、モジュラ算術における「grokking」を、ニューラルモデルが学習データを最初に暗記した後にどのように一般化するのかを理解するための重要なテストベッドとして検討する。
- 従来の研究は、局所的な回路や最適化の細部に焦点が当たりすぎてきたと主張し、その代わりにgrokking転移を説明するためのグローバルな構造的枠組みを提案する。
- 著者らは、grokkingは、倹約(パーシモニー)原理によって駆動される内部モデル構造の自発的な単純化から生じると主張する。
- 因果、スペクトル、アルゴリズム的複雑性の指標に加え、特異学習理論(Singular Learning Theory)を用いて、暗記から一般化への転換が冗長な多様体の崩壊と「深い情報圧縮(deep information compression)」に結びつくことを関連づける。
- 提案する枠組みは、モデルの過学習や一般化を、訓練ダイナミクスの変化だけでなく、内部表現における物理的に根ざした変化として捉え直す。




