シンプルな microGPT を十分学習させると、教えていない足し算があとから解けるようになる modular addition で grokking を観察する

Qiita / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

microGPTのような小規模Transformerでも、学習データで明示的に教えていない「足し算」を、十分学習させることで後から（一般化として）解けるようになる現象を観察する。
足し算をmodular addition（法modでの加算）として設計し、学習の挙動変化を使ってgrokking（学習初期はできないが後半で急に解ける等）を見ていく。
教えていない計算タスクが“突然”可能になる裏で、モデルが表面的な相関ではなくアルゴリズム的な表現へ移っていく可能性を示唆する。
PyTorchやGoogle Colab等の環境で再現・検証しやすい形で、機械学習の学習ダイナミクス（十分学習の重要性、テスト時の能力変化）を理解する狙いがある。

この記事では、とても小さい GPT 風の Transformer（microGPT）を使って、訓練データでは早く正解できるようになるのに訓練で教えていない足し算は、かなり遅れてから解けるようになるという、grokking を Google Colab 上で体験し...

この記事の続きは原文サイトでお読みいただけます。

日経XTECH

日経XTECH

Reddit r/LocalLLaMA

Reddit r/artificial

Dev.to