算術の一般化までの長い遅延:「学習された表現」が振る舞いを追い越すとき

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、トランスフォーマー系のアルゴリズム課題における「grokkking」を調査し、モデルが学習データには適合できる一方で、なぜ長い遅延の後にようやく(突然)一般化するのかに焦点を当てる。

Abstract

アルゴリズム課題で訓練されたトランスフォーマにおける「グロッキング(grokking)」は、学習集合への適合と急激な汎化の間に長い遅延があることによって特徴づけられる。しかし、その遅延の原因は未だ十分に理解されていない。エンコーダ・デコーダの算術モデルにおいて我々は、この遅延が、そもそも当該構造を獲得できなかったことを反映するのではなく、すでに学習済みの構造へのアクセスが限られていることを反映しているのだと主張する。我々は1ステップのコラッツ予測を研究し、エンコーダが最初の数千の訓練ステップのうちにパリティおよび剰余(residue)の構造を整理・配置する一方で、出力精度がさらに数万ステップにわたってほぼ偶然(chance)近くに留まることを見出す。因果的介入はデコーダのボトルネック仮説を支持する。訓練済みのエンコーダを新しいモデルへ移植するとグロッキングは2.75倍に加速するが、訓練済みのデコーダを移植するとむしろ悪化する。収束したエンコーダを凍結し、デコーダのみを再訓練すると、プラトーが完全に消え、97.6%の精度が得られる。これは共同学習における86.1%と比べて高い。デコーダの課題が難しくなるのか容易になるのかは、数の表現(numeral representation)によって決まる。15の基数(base)の範囲で、コラッツ写像の算術と因数分解が一致するもの(例: base 24)では99.8%の精度に到達するが、二進(binary)は表現が崩れて回復しないため完全に失敗する。基数の選択は帰納バイアス(inductive bias)として働き、デコーダが活用できる局所的な桁構造の量を制御する。その結果、同一の基礎となる課題であっても、学習可能性には大きな差が生じる。