広告

スペクトル・コンパクト・トレーニング:恒久的に切り詰めたSVDとStiefel QR退縮による大規模言語モデルの事前学習

arXiv cs.LG / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • スペクトル・コンパクト・トレーニング(SCT)は、MLPの重み行列を恒久的に切り詰めたSVDの因子として表現し、学習・推論の間に密行列をそもそも生成しないことで、限られたハードウェアにおけるメモリ・ウォールを対象にします。
  • SCTは、通常のバックプロパゲーションと両立する勾配を維持するために、コンパクトなスペクトルパラメータを最適化しつつ、各オプティマイザのステップ後にQRを用いて直交因子(U, V)をStiefel多様体へと退縮(retraction)させます。
  • この手法は、ランク32においてMLP層ごとに最大約199×の劇的なメモリ削減を報告し、Steam Deck上で70B級のアーキテクチャの学習ステップを示しています(密なFP32 Adamでの1,245 GBに対し、ピーク7.2 GB)。
  • SmolLM2-1.7Bでの実験では、SVDランクが異なっても同じ損失下限に収束することが示されており、MLPのランクよりも学習率スケジュールが主なボトルネックであることを示唆しています。報告されている効率/パープレキシティの最適解としてはランク128が挙げられています。
  • SCTはまた、実用的な学習上の利得も報告しており、ランク32でGPUメモリを46%削減し、学習スループットが2倍になったとしています。

Abstract

メモリウォールは、コンシューマ向けハードウェア上で大規模言語モデルを学習する際の主要なボトルネックのままです。私たちは、密な重み行列を恒久的に切り詰めたSVD因子 W = U diag(s) V^T に置き換える Spectral Compact Training(SCT)を提案します。学習中も推論中も、完全な密行列は一度も生成されません。勾配は通常のバックプロパゲーションによってコンパクトなスペクトル因子を通して流れ、各オプティマイザのステップ後に QR 分解によって U、V を Stiefel マニフォールドへ射影(リトラクション)します。SCT は、ランク 32 において MLP 層あたり最大 199 倍のメモリ削減を達成し、Steam Deck ハンドヘルド上で 700 億(70B)パラメータ級アーキテクチャの完全な学習ステップを可能にします(Adam による密 FP32 学習ではピーク 1,245 GB なのに対し、7.2 GB )。SmolLM2-1.7B に対するランク探索実験(ランク 32〜256、2000 ステップ、NVIDIA A100)では、テストしたすべてのランクが同一の損失フロア(約 4.2〜4.5)へ収束し、主要なボトルネックが学習率スケジュールであることを示します(MLP のランクではありません)。効率の最適点はランク128であり、MLP の圧縮率 11.7x、かつ最も低いパープレキシティをもたらします。GPU メモリはランク 32 で 46% 減少し、学習スループットは 2 倍になります。

広告