抽象から知能へ：Grokkingの理解

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文では、モジュラ算術における「grokking」を、ニューラルモデルが学習データを最初に暗記した後にどのように一般化するのかを理解するための重要なテストベッドとして検討する。
従来の研究は、局所的な回路や最適化の細部に焦点が当たりすぎてきたと主張し、その代わりにgrokking転移を説明するためのグローバルな構造的枠組みを提案する。
著者らは、grokkingは、倹約（パーシモニー）原理によって駆動される内部モデル構造の自発的な単純化から生じると主張する。
因果、スペクトル、アルゴリズム的複雑性の指標に加え、特異学習理論（Singular Learning Theory）を用いて、暗記から一般化への転換が冗長な多様体の崩壊と「深い情報圧縮（deep information compression）」に結びつくことを関連づける。
提案する枠組みは、モデルの過学習や一般化を、訓練ダイナミクスの変化だけでなく、内部表現における物理的に根ざした変化として捉え直す。

Abstract

合同算術におけるグロッキングは、モデル一般化の機械論的起源を調べるための重要な領域として位置づけられており、いわば決定的なショウジョウバエ実験のような存在になっています。その重要性にもかかわらず、既存研究は、特定の局所回路や最適化の調整に狭く焦点を当てたままであることが多く、この現象を根本的に駆動するグローバルな構造変化は、ほとんど見落とされています。私たちは、グロッキングは、倹約の原理（parsimony）によって支配される内部モデル構造の自発的な単純化に起因すると提案します。因果的・スペクトル的・アルゴリズム的複雑性の尺度を、特異学習理論（Singular Learning Theory）と統合し、記憶から一般化への移行が、冗長な多様体の物理的崩壊と深い情報圧縮に対応することを明らかにします。これにより、モデルの過学習と一般化のメカニズムを理解するための新しい視点を提供します。