分散は重要性ではない:モデル規模をまたぐTransformer圧縮可能性の構造分析
arXiv cs.LG / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、GPT-2(1.24億パラメータ)とMistral 7B(72.4億パラメータ)を対象に、スペクトル圧縮、ブロック置換、回転ベース量子化、活性幾何、適応型アーリーイグジットなどを評価する40回超の実験にもとづく、Transformer圧縮の体系的な実証研究を報告しています。
- 高分散の活性方向は予測に関わる方向と大きく無相関であること(CCAによる測定)を示し、そのサブスペースへ射影しても分散の90%以上は保てる一方で、予測品質は悪化(パープレキシティ低下)することを明らかにしています。
- ブロックの線形性は上流の活性分布に依存しており、先行ブロックを変更すると分布シフトが生じて下流の線形近似の精度が悪化することが示されます。
- 再構成壁として、因子化・復元型の手法で量子化誤差がクロス項によって増幅されることや、深さに応じて線形性が大きく増える傾向(Mistralでブロック0から31へR^2が0.17→0.93)を特定しています。
- 計算削減の観点では、約30%のトークンが計算的に「容易」であることを観測し、Mistralの最終ブロックで単一ブロックの線形置換が34倍圧縮かつパープレキシティ増加1.71に抑える一方、複数ブロック置換は残差誤差の蓄積と分布シフトにより失敗することを示しています。




