広告

[R] スペクトル・コンパクト・トレーニング:70Bモデル学習でメモリを172×削減(Steam Deckで検証:7.24 GB)

Reddit r/MachineLearning / 2026/3/28

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • スペクトル・コンパクト・トレーニング(SCT)は各重み行列を W = U diag(s) Vᵀ として表し、完全な密行列の重みを生成(実体化)せずに、より小さいスペクトル因子を用いて学習します。
  • この手法は、標準のバックプロパゲーションで正確な勾配を得られると主張しており、各オプティマイザ更新ステップの後にQR射影(retraction)を用いて U と V を直交正規のまま保ちます。
  • LLaMA-3系の70Bクラス構成において、この記事では学習ステップのメモリ削減が非常に大きいと報告しています(密行列+Adamで約1,245 GBに対し、SCT+Adamで7.24 GB、約172×の削減)。一方で計算時間はほぼ変わらないとされています。
  • 著者は、Steam Deck(CPU、16 GB RAM)上でのアーキテクチャ検証実行を提示しており、完全な学習ステップを約6.28秒で完了したと述べています。これは、完全に学習された本番向けモデルというより概念実証(proof-of-concept)であることを強調しています。
  • 追加の実験(例:XORやサイン回帰)では、SCTが密行列による学習品質に匹敵し得ることが示されるとされます。なお、このアプローチは約1.7B未満では弱いが、7B以上のスケールでは強いと説明されています。

これは私が出願した特許に関する研究記事です(自己宣伝ではありません)。

私はディスレクシア(失読症)なので、文章作成の助けにAIを使いました。

私はSpectral Compact Training(SCT)に取り組んできました。これは、すべての重み行列を [ W = U \operatorname{diag}(s) VT ] として保存し、小さなスペクトル因子を通して直接学習します。

密な行列は決して構築しません。標準のバックプロパゲーションによる正確な勾配です。QRによるリトラクションにより、各オプティマイザのステップ後にUとVは直交性を保ちます。

70Bクラスのアーキテクチャでの結果(80層、hidden=8192、FFN=28672、LLaMA-3スタイル):Dense + Adam: 1,245 GB SCT + Adam: 7.24 GB 圧縮率: 172x Steam Deckでのフル学習ステップ: 6.28秒 直交性エラー: ( 1.30 \times 10{-6} )

動画による証明(Steam Deck CPUでのフル実行、16 GB RAM):git -> proof

明確にしておくと、これは完成した学習済みモデルではなく、アーキテクチャの検証です。SCTはメモリの壁を解決します。計算時間は同じままです。

MLPの証明では、SCTが密な学習とまったく同等の品質を持つことが示されます(XORで100パーセント、サイン回帰で損失がほぼ同一)。圧縮はモデルサイズに比例してスケールします。1.7B未満では弱いですが、7B以上では強力です。

コード(Apache 2.0): https://github.com/EctoSpace/SCT

特許出願中。数学や制限についての質問には喜んでお答えします。arXiv cs.LGの賛同者を探しています。DMしてください。

submitted by /u/purdycuz
[link] [comments]

広告