要旨: 大規模言語モデル(LLM)は、前学習の間に、不規則な複数形の名詞主語を検出するといった、単純ではない抽象化を学習する。しかし、従来の評価手法(例:ベンチマーク)が、モデルがこれらの概念や能力をどのように獲得するのかを明らかにできないため、これらの特定の言語能力がいつ、どのようにして出現するのかは十分に理解されていない。このギャップを埋め、概念レベルでのモデル学習をより深く理解するために、疎なクロスコーダを用いて、モデルのチェックポイント間で特徴を発見し、整合させる。我々はこのアプローチを用いて、前学習中の言語的特徴の進化を追跡する。具体的には、性能と表現の変化が大きい、公開されたチェックポイントのトリプレット間でクロスコーダを学習し、さらに、個々の特徴が課題の性能に因果的に重要になる訓練段階を追跡するための新しい指標である相対的間接効果(RelIE)を導入する。その結果、クロスコーダは前学習中に、特徴の出現、維持、そして中断を検出できることを示す。我々の手法はアーキテクチャに依存せず、かつスケーラブルであり、前学習を通じた表現学習を、より解釈可能で細粒度に分析するための有望な道筋を提供する。
時間を超えたクロスコーディング:LLM事前学習における言語表現の出現と統合を追跡する
arXiv cs.CL / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来のベンチマークでは概念をいつ/どのように獲得するかが分からないという課題に対し、LLM事前学習における特定の言語能力の出現時期を理解しようとする。
- スパース・クロスコーダーを用いて、異なるモデルのチェックポイント間で内部特徴を発見・整合させることで、事前学習中の言語的特徴の進化を追跡する。
- 表現と性能に大きな変化があるオープンソースのチェックポイント・トリプレットに対してクロスコーダーを学習し、獲得される表現の変化を調べる。
- 個々の特徴がタスク性能に因果的に重要になる訓練段階を特定するために、新しい指標「Relative Indirect Effects(RelIE)」を提案する。
- 提案手法により、特徴が出現・維持・中断する時期を検出でき、アーキテクチャ非依存でスケーラブルに表現学習をより解釈可能に分析できることを示す。




