Parcae:安定したループ型言語モデルのためのスケーリング則

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ループ構造(同一層群をループで反復して計算量=FLOPsを増やす)を、残差ストリーム上の非線形・時間変動の力学系として捉え直し、既存手法の不安定さの要因をスペクトルノルムに帰着する解析を提示した。
  • 不安定性は、ループへの“注入”パラメータのスペクトルノルムが大きいことに起因するとしており、これを抑えるためにParcaeでは負の対角パラメータ化の離散化により注入パラメータのスペクトルノルムを制約する設計を提案している。
  • Parcaeは既存の大規模ループドモデルに比べて最大6.3%の検証パープレキシティ改善を達成した。
  • さらにParcaeを用いて、ループで品質を押し上げる際のスケーリング則(学習時は固定パラメータ数でFLOPsを増やすときのパワー則、テスト時は飽和的な指数減衰に従う計算スケール則)を導出している。
  • 1.3Bパラメータ規模では、固定のパラメータ/データ予算下でTransformer強ベースラインに対しCOREとCORE-Extendedがそれぞれ+2.99/+1.18改善し、相対品質で最大87.5%(2倍サイズTransformer比)を報告している。

要旨: 従来の固定深さアーキテクチャは、学習FLOPsを増やすことで品質をスケールさせます。典型的には、パラメータ化を増やすことで達成されますが、その代償としてメモリフットプリントやデータ量が増大します。潜在的な代替としてループ型アーキテクチャがあります。ループ型アーキテクチャは、アクティベーションを層のブロックに対してループさせることで、FLOPsを増やします。有望ではあるものの、ループ型アーキテクチャの既存の学習レシピは不安定になり得ます。具体的には、残差爆発やロスのスパイクに悩まされます。本研究では、ループを残差ストリーム上の非線形・時間変動ダイナミカルシステムとして言い換えることで、これらの課題に取り組みます。このシステムに対する線形近似を通じて、既存のループ型アーキテクチャにおける不安定性が、注入パラメータにおける大きなスペクトルノルムに起因して生じることを示します。これらの不安定性の問題に対処するために、Parcae という新しい安定なループ型アーキテクチャを提案します。Parcae は、負の対角パラメータ化の離散化によって注入パラメータのスペクトルノルムを制約します。その結果、Parcae は、従来の大規模なループ型モデルに比べて、検証時のパープレキシティを最大 6.3% 低減します。提案する安定なループ型アーキテクチャを用いて、ループを学習時およびテスト時にFLOPsを増やすことで品質を向上させる手段として捉えた場合のスケーリング特性を調べます。学習については、パラメータ数を固定したままFLOPsをスケールさせるための予測可能なべき則を導出します。初期のスケーリング則は、固定されたFLOP予算のもとでは、ループとデータを同時に増やすべきことを示唆しています。テスト時には、Parcae が、予測可能で飽和する指数関数的減衰に従って、ループを用いて計算量をスケールできることを見出します。1.3Bパラメータまでスケールした場合、固定したパラメータ数とデータ予算のもとで、強力なTransformerベースラインと比べて CORE および Core-Extended の品質がそれぞれ 2.99 点、1.18 点向上し、さらに、サイズが2倍のTransformerに対して最大 87.5% の相対的な品質を達成します。