言語モデルは何を、いつ学ぶのか?暗黙のカリキュラム仮説

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの事前学習が、モデルやデータ混合の違いをまたいで、スキル獲得のための構成的で予測可能な順序に従うとする「暗黙のカリキュラム仮説」を提案する。
  • この考えを検証するために、取得(retrieval)、形態変換、照応(coreference)、論理、数学などの、単純で組み合わせ可能な診断タスク群を用い、「モデルが一定の精度閾値に到達したとき」の「創発点(emergence points)」を特定する。
  • 4つのモデル系列(410M〜13Bパラメータ)において、スキルがいつ創発するかの順序はモデル対間で非常に一貫しており、45ペアでのスピアマン相関はρ = 0.81と報告されている。
  • 著者らは、複合的な能力は通常、それを構成する各タスクの後に創発することを見出し、さらにこの構造が学習された表現にも反映されていることを示す(類似タスクの「ファンクションベクトル」表現は、学習の軌跡の類似性と相関する)。
  • タスク集合から得られる表現に基づく信号を用いて、本論文は、学習時にそれらのタスクを直接評価することなく、保持した構成的タスクの学習軌跡を予測し、強い適合(R² = 0.68〜0.84)を示す。

Abstract

大規模言語モデル(LLM)は驚くほど複雑なタスクを実行できますが、その能力が事前学習の過程でどのようにして立ち現れるのかという細かな詳細は、いまだ十分に理解されていません。検証損失に関するスケーリング則は、追加の計算によってモデルがどれだけ改善するかを教えてくれますが、どのスキルをどの順序で獲得するのかまでは示してくれません。そこで本研究では、暗黙のカリキュラム仮説(Implicit Curriculum Hypothesis)を提案します。すなわち、事前学習は、モデルとデータ混合のあいだで、構成的で予測可能なカリキュラムに従うというものです。私たちは、検索、形態変換、照応(コリファレンス)、論理推論、数学にまたがる、単純で構成可能な一連のタスクを設計することでこの仮説を検証します。これらのタスクを用いて、410M〜13Bパラメータの範囲をカバーする4つのモデル系統にわたって、立ち現れ(emergence)のポイントを追跡します。その結果、モデルが一定の精度閾値に到達する時点の並び(順序)は非常に一貫しており(45のモデル対において \rho = .81)、また複合タスクは、最も多くの場合でそれを構成するタスクの後に立ち現れることが分かりました。さらに、この構造はモデルの表現に符号化されていることを見出します。すなわち、同様の関数ベクトル表現をもつタスクは、学習における同様の軌跡をたどる傾向があります。タスク群から導出される表現空間を用いることで、事前学習の過程において、これまで評価していない単純な保持(held-out)構成タスクの学習軌跡を、効果的に予測できます(モデル間で R^2 = .68.84)。これらの結果は、事前学習が損失曲線が示す以上に構造化されていることを示唆しています。すなわち、スキルは、モデル間で一貫した構成的な順序で立ち現れ、その内部から読み取ることができるのです。