BASIS：不変スカラーによるバランスド・アクティベーション・スケッチング—「ゴースト・バックプロパゲーション」

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、BASIS（Balanced Activation Sketching with Invariant Scalars）という新しい「ゴースト・バックプロパゲーション」手法を提案し、厳密なバックプロパゲーションが O(L * B * N ) でスケールしてしまう活性メモリのボトルネックを緩和することを目指しています。
BASISは活性の勾配伝播（dX）については厳密性を保ちながら、重み更新（dW）を高い圧縮度のランクR（スケッチ）テンソルで計算し、逆伝播の計算量・メモリをおよそ O(L * R * N ) に抑えます。
スケッチ勾配に由来する不安定性に対処するため、BASISは、オフダイアゴナルの衝突分散を厳密に除去する Balanced Hashing と、空間幾何の連続的エネルギーノルムを制御されたバイアス—分散のトレードオフで保つ Invariant Scalars を導入します。
実験では、GPT系のモデルを50,000ステップ学習し、R=32でBASISが厳密バックプロパゲーションと同等（わずかに上回る）で検証損失 6.575 vs. 6.616 を示し、R=1という極端な圧縮でも滑らかに収束するなど、頑健性が高いことが示されています。
著者らはGitHubで実装コードを公開しており、BASISを深層学習やGPT-likeアーキテクチャで直接試せるようになっています。

要旨: 正確なバックプロパゲーションに必要な活性メモリは、ネットワークの深さ、コンテキスト長、および特徴次元に対して線形にスケールし、O(L * BN ) という空間的ボトルネックを形成します（ここで、B はシーケンス・バッチのカーディナリティ、N は特徴次元です）。この制約は歴史的に、深いニューラルネットワークのスケーリングを抑制してきました。ランダム化された自動微分によってこれを軽減しようとする試みもありますが、歴史的には壊滅的な分散（catastrophic variance）に悩まされてきました。本論文では、BASIS（Invariant Scalars を伴うバランスド活性スケッチング）という効率的なバックプロパゲーション手法を提案します。BASIS は、活性メモリをバッチ次元およびシーケンス次元から完全に切り離します。BASIS は、誤差信号（dX）を正確に伝播して完璧な勾配フローを維持しますが、重み更新（dW）は大幅に圧縮された階数 R のテンソルを用いて計算します。スケッチされた勾配の基礎的な不安定性を解決するために、2 つの新しい機構を提案します。オフ対角の衝突による分散を厳密に排除する Balanced Hashing と、空間的幾何の連続エネルギー不変ノルムを決定論的に保存するという、原理に基づくバイアス分散トレードオフである Invariant Scalars です。理論的には、BASIS は活性メモリを O(L * RN ) に削減し、後方パスの行列乗算のフットプリントを大幅に低減します。実験的には、50,000 ステップにわたって GPT アーキテクチャを学習することで、理論的保証が検証されます：R = 32 では、BASIS は正確なバックプロパゲーションと同等（そしてわずかに上回る）検証損失（6.575 対 6.616）を達成し、暗黙の正則化として機能します。特筆すべきことに、安定化された大きさの軌跡により、極端な空間圧縮（R = 1）下でもモデルは滑らかに収束し、推定器の極めて高い頑健性が示されます。コードは https://github.com/VladimerKhasia/basis で公開されています