変圧器（トランスフォーマー）学習のスペクトル・ライフサイクル：一過性圧縮波、永続的スペクトル勾配、そしてQ/K--Vの非対称性

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

30M〜285Mパラメータの3つのスケールにわたって、学習中に25ステップ間隔で各重み行列のフルSVD（特異値分解）スペクトルを系統的に追跡し、スペクトル特性が学習時間とともにどう変化するかを明らかにした。
安定階数（stable rank）に基づく圧縮が、層をまたいで伝播する「一過性の圧縮波」として現れ、勾配は序盤でピークを迎えた後に反転し、後段層が前段層より過剰に圧縮するようになることを見出した。
永続的なスペクトル勾配として、べき乗指数αが深さ依存の反転U字型（inverted-U）を形成し、モデルの深さが増すほどピーク位置がより前の層へ移っていくことを観測した。
Q/K–V投影に機能的非対称性があり、バリュー／出力側は一様に圧縮される一方で、クエリ／キー側が深さ依存のダイナミクスを担うことを報告した。
結果を2つのタイムスケールの力学モデルで形式化し、スケーリング則（Δα ∝ L^0.26, R^2=0.99）を導出したうえで、αが層の重要度と相関すること（ρ=0.69〜0.84）と、スペクトルに基づくプルーニングがLast-N手法より1.1×〜3.6×優れることを複数のモデルファミリで示した。

要旨: 私たちは、トランスフォーマーの事前学習
emph{中} における重み行列の特異値スペクトルに関する最初の体系的研究を提示する。3つのモデルスケール（30M～285Mパラメータ）にわたって、25ステップ間隔ごとにすべての重み行列の完全なSVD分解を追跡する。そこで、次の3つの現象を発見する。
\textbf{(1)~一過性圧縮波:} 安定階数の圧縮が、初期層から後期層へ向かう「進行波」として伝播し、劇的な勾配を形成する。するとその勾配は早期に最大となった後に
emph{反転} し、後期層は最終的に初期層を超えて過剰に圧縮してしまう。
\textbf{(2)~持続的なスペクトル勾配:} パワー則の指数~ $\alpha$ が、より深いモデルで非単調な逆U字型の深さ方向勾配を恒常的に形成し、深さが増すにつれてピークがより早い層へ移動する。
\textbf{(3)~Q/K--V 機能的非対称:} 値/出力の射影は一様に圧縮される一方で、クエリ/キーの射影は深さ依存のダイナミクス全体を担う。
一過性の圧縮と持続的なスペクトル形状が分離していることから、
emph{階数とスペクトル形状は学習に関して根本的に異なる情報を符号化している} ことが分かる。これを2つのタイムスケールを持つ力学モデルとして形式化し、スケーリング則（ $\Delta\alpha \propto L^{0.26}$ 、 $R^2{=}0.99$ ）を導出する。
3つのファミリ（カスタム、GPT-2、Pythia）の9つのモデル（30M～1Bパラメータ、8～36層）で検証し、 $\alpha$ が層の重要度を予測すること（ $\rho{=}0.69$ ～ $0.84$ 、 $p{<}0.02$ ）を示す。また、スペクトルに導かれたプルーニングが、7つのモデルにおいて2つのファミリ（GPT-2 124M～774M、Pythia 160M～1B）で、Last-N ヒューリスティックを 1.1{ imes}～3.6{ imes} 上回ることを示す。最悪と最良の差は最大23.7{ imes} に達し、スペクトル構造が因果的に重要であることを裏付ける。