一般化には特徴学習カーネルにおけるデータ対称性の破れが必要である

arXiv stat.ML / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「grokking（理解の獲得）」を調査しており、モデルが訓練データでは高い精度に到達する一方で、未見のテスト点へはずっと後になってからのみ一般化する現象を扱う。対象は、元のモジュラー算術の設定を超えた代数的タスクである。
著者らは、Recursive Feature Machine（RFM）とAverage Gradient Outer Product（AGOP）を用いて特徴学習カーネルを解析し、一般化が起こるのは訓練集合に存在する特定の対称性が破られた場合に限られることを示す。
RFMが、データに含まれる不変変換群（invariance group）の作用を回復することで一般化することを、実験的な証拠によって示している。これにより、学習された表現がデータの基礎的な対称性と結びつく点が明らかになる。
本研究は、学習された特徴行列が不変変換群に結びつく要素を符号化しており、一般化が対称性の有無に依存する理由を説明できると結論づける。

要旨: グロッキングは、モデルが高い学習精度を達成する一方で、未知のテスト点への汎化が、それよりずっと後になってから初めて起こるときに生じます。この現象は当初、加法的な問題の一群、例えばモジュラ算術の学習（Powerら、2022年）において観測されました。私たちは、Recursive Feature Machine（RFM）アルゴリズム（Radhakrishnanら、2024年）を用いて、特定の特徴学習カーネルのクラスにおける代数的タスクでのグロッキングを研究します。RFMは、タスクに関連する特徴を学習するために、推定器の Average Gradient Outer Product（AGOP）によって特徴行列を反復的に更新します。私たちの主要な実験的発見は、汎化が起こるのは、学習データ内のある種の対称性が破られたときだけだという点です。さらに、経験的に、RFMはデータに内在する基礎的な不変性（invariance）群の作用を復元することで汎化することを示します。学習された特徴行列が、不変性群の特定の要素を符号化していることを見出し、それが対称性への汎化の依存を説明します。