SimDiff:類似性と差分による深さプルーニング

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、冗長な層を削除して大規模言語モデルの推論効率を高める「深さプルーニング」のための新しい基準SimDiffを提案しています。
  • 従来の主にコサイン類似度に依存する1次元の手法と異なり、SimDiffは表現の類似性と変換の差分という2つの補完的な指標で層の重要度を評価します。
  • 変換の差分は2つのメトリクス—MSSD(外れ値に敏感で決定的な補正を重視)とMASD(頑健に平均的寄与を測る)—で定量化し、単一ヒューリスティックに見られる不安定さや破滅的な崩壊を回避します。
  • 0.5B〜13Bパラメータの複数モデルでの実験の結果、SimDiffはさまざまなプルーニング率において既存のベースラインを上回り、LLaMA2-7Bでは25%プルーニングで性能を91%以上維持し、LLaMA3.1-8Bでは12層の削除で最大1.49×の推論高速化を達成します。
  • 大幅にプルーニングしたモデルでも最小限のファインチューニングで効果的に復元できることを示しており、実運用面での有用性が示唆されます。

要旨: 深度プルーニングは、冗長な層を特定して除去することで、大規模言語モデル(LLM)のデプロイ効率を改善します。この特定プロセスにおける広く受け入れられた標準は、コサイン距離を用いて層間の類似度を測定することです。しかし我々は、この1次元のヒューリスティックのみに依拠する手法では、異なるアーキテクチャ間で予測不能な性能が現れたり、さらには壊滅的な崩壊すら起こり得ることを見出しました。 この問題に対処するために、我々はSimDiffという新しい層重要度の基準を提案します。この基準は、2つの直交する観点から層を同時に評価します。すなわち、表現の類似性と変換の差分です。差分は2つの異なる指標によって定量化されます。外れ値に敏感で、決定的な修正を行う層を特定するMSSDと、層の平均的な寄与を頑健に測定するMASDです。パラメータ数0.5Bから13Bまでの複数のモデルに対する大規模な実験により、SimDiffが様々なプルーニング率において、最先端のベースラインを大幅に上回ることを示します。特に、我々の手法は25%のプルーニング率でLLaMA2-7Bの性能の91%以上を維持し、LLaMA3.1-8Bにおいて12層をプルーニングする際には最大1.49倍の推論速度向上を達成します。また、最小限の微調整でプルーニング済みモデルを効果的に復元できることも示します。