文脈内学習における遅延一般化（grokking）の役割としての認識論的不確実性に関するベイズ的観点

arXiv stat.ML / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、文脈内学習がときに遅延一般化（grokking）を示す理由を調べ、ベイズ的な観点から、暗記から一般化への移行を分析する。
潜在的な線形関数を用いたモジュラ算術タスクにより、著者らは学習中に予測（認識論的）不確実性がどのように変化するか、さらにタスク多様性、文脈長、文脈ノイズによってそれがどう変わるかを追跡する。
著者らは、grokking の瞬間に認識論的不確実性が急激に崩壊することを見いだし、その結果、不確実性が、一般化がトランスフォーマで出現したタイミングをラベルなしで識別する診断指標として機能することを示す。
さらに、本研究は簡略化したベイズ線形モデルによって理論も提供しており、遅延一般化と不確実性ピークを、grokking ダイナミクスを支配する共通のスペクトル的メカニズムに結びつける。

Abstract

文脈内学習（in-context learning）により、推論時に少数の例からトランスフォーマーが新しいタスクへ適応できる一方で、「grokking」は、この一般化が長時間の学習の後に限って、突然に生じ得ることを示しています。本研究では、ベイズ的観点から文脈内学習におけるタスク一般化とgrokkingを調べ、「記憶（memorization）から一般化（generalization）への遅延した転移」を可能にする要因は何かを問いかけます。具体的には、トランスフォーマーが文脈内の例だけから潜在的な線形関数を推論しなければならない、合同算術（modular arithmetic）タスクを考察し、学習中に予測不確実性がどのように変化するかを解析します。私たちは近似ベイズ手法を組み合わせて事後分布を推定し、不確実性が、学習の進行に沿って、またタスク多様性、文脈長、文脈ノイズの変化のもとでどのように振る舞うかを調べます。その結果、モデルがgrokkingするときに認識論的不確実性（epistemic uncertainty）が鋭く崩壊し、不確実性がトランスフォーマーにおける一般化の実用的な、ラベル不要の診断指標になることが分かりました。さらに、簡略化したベイズの線形モデルによって理論的裏付けも提示し、漸近的に見て、遅延した一般化と不確実性のピークは、同一の基礎となるスペクトル（固有）メカニズムから生じることを示します。このメカニズムは、grokkingの時刻と不確実性ダイナミクスを結びつけます。