これは私が出願した特許に関する研究記事です(自己宣伝ではありません)。
私はディスレクシア(失読症)なので、文章作成の助けにAIを使いました。
私はSpectral Compact Training(SCT)に取り組んできました。これは、すべての重み行列を [ W = U \operatorname{diag}(s) VT ] として保存し、小さなスペクトル因子を通して直接学習します。
密な行列は決して構築しません。標準のバックプロパゲーションによる正確な勾配です。QRによるリトラクションにより、各オプティマイザのステップ後にUとVは直交性を保ちます。
70Bクラスのアーキテクチャでの結果(80層、hidden=8192、FFN=28672、LLaMA-3スタイル):Dense + Adam: 1,245 GB SCT + Adam: 7.24 GB 圧縮率: 172x Steam Deckでのフル学習ステップ: 6.28秒 直交性エラー: ( 1.30 \times 10{-6} )
動画による証明(Steam Deck CPUでのフル実行、16 GB RAM):git -> proof
明確にしておくと、これは完成した学習済みモデルではなく、アーキテクチャの検証です。SCTはメモリの壁を解決します。計算時間は同じままです。
MLPの証明では、SCTが密な学習とまったく同等の品質を持つことが示されます(XORで100パーセント、サイン回帰で損失がほぼ同一)。圧縮はモデルサイズに比例してスケールします。1.7B未満では弱いですが、7B以上では強力です。
コード(Apache 2.0): https://github.com/EctoSpace/SCT
特許出願中。数学や制限についての質問には喜んでお答えします。arXiv cs.LGの賛同者を探しています。DMしてください。
[link] [comments]




