トランスフォーマー言語モデルにおける解剖学的異質性

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は SmolLM2-135M(30 層、135M パラメータ)を5つの診断指標を用いて分析し、トランスフォーマー層間に顕著な解剖学的異質性を明らかにし、均一な計算予算という仮定に挑戦する。
  • 層の重みは強い数学的規則性(決定係数 R^2 ≈ 0.91)を示し、普遍的な δ(デルタ)型の振動パターンを伴うが、予測された重みに操作を加えると壊滅的な非線形誤差蓄積を招く。
  • 層の重要性は臨界コア域(L8-11)からアンチ層(L14、L17)まで約 10^7 のレンジにわたり、アンチ層を除去することで性能が向上することがあり、層ごとに階層的な重要性が明らかになる。
  • 回復速度は層の重要性と相関し、層間で異なる訓練要件を示す。5つの操作戦略のうち、ウェイトスケーリング(α = 0.9)のみがモデル品質を保持する。
  • Growth Transformer Training は層の重要性に基づいて予算を配分し、約 54% のコスト削減を達成。パラメータ数を同一にした場合、均一訓練より検証損失が約 4.7 倍低く、実行も約 13% 速くなるという概念実証を示す。

概要: 現在のトランスフォーマー言語モデルは、全層に対して均一な計算予算でトレーニングされており、層間の均質性を暗黙の前提としている。
私たちは SmolLM2-135M(30層、135Mパラメータの因果言語モデル)を対象に、5つの診断指標を用いた実証分析を通じてこの前提に挑戦する。指標は、重みの予測可能性(R2)、アブレーションによる劣化、回復速度、重み操作の頑健性、構造分析である。
著しく解剖学的な不均質性を見出した:
(1) 層の重みは強い数学的規則性(R2 = 0.91)に従い、普遍的な振動性デルタパターン(相関係数は約 -0.50)を示すが、予測された重みは非線形誤差の蓄積により壊滅的な性能低下を招く。
(2) 層の重要性は 10の7乗 の範囲に及び、臨界コア(L8-11、最大で PPLの63,419%の劣化)からアンチ層(L14、L17)まであり、これらを除去すると性能が改善される。
(3) 回復速度は層の重要性と相関しており、異なるトレーニング要件を示している。
(4) テストされた5つの操作戦略のうち、重みのスケーリングのみ(α = 0.9)がモデル品質を維持する。
(5) 層の重要性に基づいて予算を割り当てる Growth Transformer Training は約54%のコスト削減を達成する。
概念実証実験はこれを裏づける:同一パラメータ数で、均一トレーニングより検証損失が約4.7倍低く、かつ13%高速である。