概要: 大規模言語モデル(LLM)の急速な成長は、その膨大な計算およびメモリ需要により、大規模展開における重要な課題をもたらします。ネットワーク枝刈りのようなモデル圧縮は有望な解決策を提供しうるものの、既存の多くの手法は、高い圧縮率において良好な性能を維持できないことが多いです。これに対処するために、私たちは各線形層の重みを、疎な行列・低ランク行列・二値行列の3つの相補的な成分に分解する新しい枠組みSLaBを提案します。SLaBは再学習の必要をなくし、分解プロセスを導くために活性に配慮した枝刈りスコアを活用します。Llamaファミリのモデルに対する実験により、SLaBが最先端の性能を達成し、50%圧縮において既存手法と比べてパープレキシティを最大36%削減し、ゼロショット課題ではベースラインに対して最大8.98%精度を向上させることが示されています。
SLaB:効率的な大規模言語モデルのための疎・低ランク・バイナリ分解(Sparse-Lowrank-Binary Decomposition)
arXiv cs.LG / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SLaBは、LLMの各線形層の重みを「疎(sparse)」「低ランク(low-rank)」「バイナリ(binary)」の3成分に分解することで、計算・メモリ負荷を抑えつつ性能劣化を減らす新しい圧縮枠組みを提案しています。
- 従来法で問題になりがちな高圧縮率でも良好な性能を維持することを狙い、再学習(retraining)を不要とし、活性(activation)を考慮したプルーニング指標で分解を導く点が特徴です。
- Llama系モデルの実験では、既存手法に比べて50%圧縮でperplexityを最大36%改善し、ゼロショット課題の精度でベースラインより最大8.98%向上したと報告されています。

