スペクトル・コンパクト・トレーニング:恒久的に切り詰めたSVDとStiefel QR退縮による大規模言語モデルの事前学習
arXiv cs.LG / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- スペクトル・コンパクト・トレーニング(SCT)は、MLPの重み行列を恒久的に切り詰めたSVDの因子として表現し、学習・推論の間に密行列をそもそも生成しないことで、限られたハードウェアにおけるメモリ・ウォールを対象にします。
- SCTは、通常のバックプロパゲーションと両立する勾配を維持するために、コンパクトなスペクトルパラメータを最適化しつつ、各オプティマイザのステップ後にQRを用いて直交因子(U, V)をStiefel多様体へと退縮(retraction)させます。
- この手法は、ランク32においてMLP層ごとに最大約199×の劇的なメモリ削減を報告し、Steam Deck上で70B級のアーキテクチャの学習ステップを示しています(密なFP32 Adamでの1,245 GBに対し、ピーク7.2 GB)。
- SmolLM2-1.7Bでの実験では、SVDランクが異なっても同じ損失下限に収束することが示されており、MLPのランクよりも学習率スケジュールが主なボトルネックであることを示唆しています。報告されている効率/パープレキシティの最適解としてはランク128が挙げられています。
- SCTはまた、実用的な学習上の利得も報告しており、ランク32でGPUメモリを46%削減し、学習スループットが2倍になったとしています。




