Abstract
大規模言語モデル(LLM)は驚くほど複雑なタスクを実行できますが、その能力が事前学習の過程でどのようにして立ち現れるのかという細かな詳細は、いまだ十分に理解されていません。検証損失に関するスケーリング則は、追加の計算によってモデルがどれだけ改善するかを教えてくれますが、どのスキルをどの順序で獲得するのかまでは示してくれません。そこで本研究では、暗黙のカリキュラム仮説(Implicit Curriculum Hypothesis)を提案します。すなわち、事前学習は、モデルとデータ混合のあいだで、構成的で予測可能なカリキュラムに従うというものです。私たちは、検索、形態変換、照応(コリファレンス)、論理推論、数学にまたがる、単純で構成可能な一連のタスクを設計することでこの仮説を検証します。これらのタスクを用いて、410M〜13Bパラメータの範囲をカバーする4つのモデル系統にわたって、立ち現れ(emergence)のポイントを追跡します。その結果、モデルが一定の精度閾値に到達する時点の並び(順序)は非常に一貫しており(45のモデル対において \rho = .81)、また複合タスクは、最も多くの場合でそれを構成するタスクの後に立ち現れることが分かりました。さらに、この構造はモデルの表現に符号化されていることを見出します。すなわち、同様の関数ベクトル表現をもつタスクは、学習における同様の軌跡をたどる傾向があります。タスク群から導出される表現空間を用いることで、事前学習の過程において、これまで評価していない単純な保持(held-out)構成タスクの学習軌跡を、効果的に予測できます(モデル間で R^2 = .68〜.84)。これらの結果は、事前学習が損失曲線が示す以上に構造化されていることを示唆しています。すなわち、スキルは、モデル間で一貫した構成的な順序で立ち現れ、その内部から読み取ることができるのです。