要約: 大規模言語モデルの圧縮は、剪定、量子化、低ランク分解によって大きな進展を遂げてきたが、しかしすべての既存手法には根本的な限界が残っている。圧縮予算は、個々のモデル構成要素が機能的に何を符号化しているかを表現する情報なしに割り当てられる。私たちはこれを能力盲圧縮問題と呼び、これは二つのよく文献化された失敗の根本原因であると主張する―― perplexity に基づく評価が推論能力の喪失に対して鈍感であること、そして Ma ら(2026)によって最近特徴づけられたモデル性能の急激な相転移であること。Capability-Guided Compression (CGC) を提案する。これは Sparse Autoencoder (SAE) によって導出される能力密度マップを用いて、トランスフォーマーの構成要素間で異なる圧縮予算を割り当てることでこの問題に対処する枠組みだ。能力密度は、ある構成要素のSAE特徴活性化分布の特徴幅、活性化エントロピー、入力間の一貫性を組み合わせて定義された形式的なスカラー量である。理論的には、能力密度が高い構成要素は構造的冗長性が低く、個々の相転移点をより低い圧縮比で到達することを示す。これにより、構成要素レベルの相転移予測のための初の事前圧縮機構を提供する。GPT-2 Medium の実験は、能力密度が Wanda 重要度スコアと統計的に独立していることを確認した(Spearman の順位相関係数 rho = -0.054、ヘッド数 n = 384)。これにより、能力密度は既存のすべての重要度指標と直交する、真に新しい圧縮信号であることが示される。PPL ベースの圧縮比較では否定的な結果を報告し、完全な CGC 仮説の検証には GPT-2 Medium が不十分な試験床であるという妥当な診断を提供する。理論的枠組み、密度の形式化、および直交性の発見は、能力を意識した圧縮研究の基盤を提供する。
能力指向圧縮: 大規模言語モデルの解釈性を意識した予算配分を目指して
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、モデルの成分の機能的役割を考慮せずに圧縮予算を割り当てることの根本的な限界として、能力を見落とした圧縮を指摘する。
- Capability-Guided Compression (CGC) を導入し、Sparse Autoencoder に由来する能力密度マップを用いて、正式に定義された能力密度指標に基づきトランスフォーマーの構成要素に差分予算を割り当てる。
- 著者らは、能力密度が高いコンポーネントは構造的冗長性が低く、より低い圧縮比で相転移点に達することを証明しており、コンポーネントレベルの相転移を予測する事前圧縮機構を可能にする。
- GPT-2 Medium を用いた実験は、能力密度が Wanda重要度スコアと直交していることを示し、新規の圧縮信号を示唆している。一方、PPLベースの圧縮比較では否定的な結果を報告し、適切な評価用テストベッドの必要性を強調している。