要旨:
大規模言語モデル(LLMs)は何十億ものパラメータを含みますが、多くの正確な値は必須ではありません。
私たちは、最も重要なのは重みの相対的な順位であり、ある結合が他の結合より強いか弱いかであること、正確な大きさではないことを示します。
一意の重み値の数を減らすために、事前学習済みモデルに対して重みクラスタリングを適用し、各重み行列をK-meansからのK個の共有値で置換します。
Llama 3.1-8B-Instruct および SmolLM2-135M について、各行列をわずか16〜64個の異なる値に減らしても再訓練なしで高い精度を維持し、ディスク上でLLMを圧縮する簡単な、訓練不要な方法を提供します。
オプションとして、クラスタ平均(セントロイド)のみを微調整することで、残りの精度ギャップの30〜40%を最小限の費用で回復します。
次に、割り当てを固定したまま、クラスタ平均(セントロイド)を体系的にランダム化します。
クラスタの相対順位を混乱させると品質は急激に低下します—平均や分散といったグローバル統計が保持されていても、パープレキシティは桁違いに増加することがあります。
対照的に、順位を保持するランダム化は中間層および後半層でほとんど損失を生じません。
一方、多くの層が同時に摂動を受ける場合、層ごとの段階的な置換を進めると、順位の歪みではなくスケールドリフトが支配的な崩壊メカニズムであることが明らかになる。しかし、a > 0 のアフィン補正 w' = a w + b(この補正は順位順序と全体の重み分布の両方を保持する)は、このドリフトを大幅に遅らせることができる。
この順位ベースの視点は、モデル圧縮と頑健性に新しい視点をもたらす。
重みをクラスタリングした大規模言語モデルでは相対的なランクだけが重要である
arXiv cs.LG / 2026/3/19
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、重みの相対的なランクが、重みの絶対値の大きさではなく、LLMの性能を大きく決定することを示しており、各行列を16〜64個の共有値(K個)へクラスタリングすることで訓練を要さない圧縮が可能になる。対象モデルとして Llama 3.1-8B-Instruct および SmolLM2-135M のようなモデルが挙げられている。
- 各重み行列を16〜64個の異なる値に縮約しても、再訓練なしで精度を維持できる。さらに、セントロイドのみを微調整することで、残りの精度ギャップのおおよそ30〜40%を最小コストで回復できる。
- クラスタの意味をシャッフルする、すなわちランクを変更すると、品質は急激に劣化する。一方、ランクを保つランダム化は中間層・後半層での損失をほとんど生じさせず、ランクを決定的な要因として強調している。
- 多くの層が乱される場合、崩壊の主な原因はランクの歪みではなくスケールのドリフトである。ランク順序と分布を保持する a > 0 のアフィン補正 w' = a w + b を適用することで、このドリフトを著しく遅らせることができ、モデル圧縮と頑健性に対する新しい視点を提供する。
