大規模言語モデル事前学習における有限サイズ勾配輸送:カスケードサイズから集中的輸送効率へ

arXiv cs.LG / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルの事前学習に対して、5つの観測量(D、z、β、δ、v_rel)を用いてカスケードサイズ、学習時間、絶対的な輸送量、集中的輸送効率を切り分ける有限サイズ勾配輸送の枠組みを提案する。
  • Pico-LMの生の勾配測定を複数スケールと125のアラインドステップで解析し、さらにPythiaの5スケール補助データセット(153のアラインドなチェックポイント差分の更新フィールドから構築)も用いた結果、両モデル系で代数的な閉包が成り立つことを示す。
  • 数学的構造は共通である一方、両者は異なる輸送レジームに属する:Pico-LMは所要時間と正のスケーリングを示しつつ集中的効率とは負のスケーリングを示し、PythiaはD=1近傍にとどまり効率のスケーリングは弱い正の依存に留まる。
  • ランダム化フィールドによる制御実験では、集中的チャネルと所要時間チャネルでヌル条件の床がほぼ一致し、観測された差はキャリブレーションの違いではなく共通のヌル構造からの実際の逸脱を反映していることが示唆される。
  • 外部性能との関連はチャネル単位で現れ、主にv_relと正規化されたカスケード所要時間を通じて伝達される一方で、D(t)はサイズの共通ベースラインとして働くものの指数レベルでの性能相関は有意ではないとしている。

要旨: 本稿では、D,z,eta,
abla,
\delta,v_{\mathrm{rel}}
の5つの観測量に基づく、実言語モデル学習のための有限サイズの勾配輸送(gradient-transport)フレームワークを導入する。これらは、カスケードのサイズ、持続時間、絶対的な輸送、ならびに集約的輸送効率を分離する。Pico-LM から得られた、4つのスケールと125の整合(aligned)ステップにわたる直接の生(raw)勾配測定を解析し、さらに、153の整合されたチェックポイント差分更新フィールドから構築した5スケールのPythia 対応データセットも併せて用いる。両者の系列において同じ代数的な閉包が成り立ち、また両者はいずれもカスケードサイズについてほぼ1に近い(near-unity)背骨(backbone)を共有しているが、占める輸送レジーム(transport regimes)は異なる。Pico-LM では持続時間のスケーリングが正で集約的効率のスケーリングが負であるのに対し、Pythia は D=1 のベースライン近傍にとどまり、効率のスケール依存性は弱い正に限られる。ランダム化した場(randomized-field)による制御では、集約的チャネルと持続時間チャネルにおいてヌル(null)床(floor)がほぼ一致して現れ、これは、対比が異なるヌル較正の違いというより、共有されたヌルの骨格(null skeleton)からの異なる実際の逸脱を反映していることを示している。さらに両系列は、段階的なパワー則の圧縮可能性(compressibility)にも違いがある。Pico-LM は持続時間と効率のパワー則を明瞭に保つ一方で、Pythia はサイズの背骨は維持しつつ、そのチャネルでは圧縮可能性の“1スロープ”がより弱い。外部の性能関連もまたチャネル・レベルで対応しており、主に v_{\mathrm{rel}} と正規化されたカスケード持続時間によって担われるが、D(t) は有意な指数レベルでの性能関連を伴わない形で共有されたサイズ背骨として働く。これらの結果は、普遍的な固定点(universal fixed point)を主張したり、ニューラルなスケーリング則の第一原理に基づく導出を行ったりすることなく、再利用可能な輸送計測フレームワークを支持する。