ランダム化部分空間反復による事前学習モデルの低ランク圧縮

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模な事前学習モデルを対象に、厳密なSVD(特異値分解)の高コストを回避しつつ、低ランクの重み分解を用いて効率的に圧縮することを扱う。
  • 低ランク近似のスペクトル誤差が下流の予測性能にどう結び付くかを、圧縮された重み誤差によってソフトマックスのクラス確率の偏差がどのように支配されるかという観点から解析する。
  • 著者らは、事前学習モデルの特異値スペクトルがゆっくり減衰する場合(実務上しばしば見られる)には、ランダム化SVD(RSVD)が不良な近似を生成し得ると主張する。
  • スペクトル分離を改善し、近似品質を制御可能にするために、多段のべき乗(power)反復を伴うランダム化部分空間反復(RSI)を提案する。
  • 畳み込みネットワークとトランスフォーマー・アーキテクチャでの実験により、RSIは、強い圧縮設定の下でRSVDよりも予測精度が高く、近似品質もほぼ最適であることを示す。

要旨: 事前学習済みモデルの大規模さにより、実用的な導入のために効率的な圧縮が不可欠になっています。特異値分解(SVD)に基づく低ランク分解は、モデル削減に対する筋の通ったアプローチを提供しますが、大きな重み行列に対するその厳密な計算は高コストです。ランダム化SVD(RSVD)のようなランダム化による代替手法は効率を改善しますが、特異値スペクトルの減衰が緩やかな場合には近似品質が低下し得ます。この状況は、現代の事前学習済みモデルでよく見られます。本研究では、この制限に対して理論的および実証的の両面から取り組みます。まず、softmaxの摂動を解析することで、低ランク近似誤差と予測性能の間の関係を確立し、圧縮された重みのスペクトル誤差によってクラス確率のずれが制御されることを示します。次に、RSVDが不十分であることを示し、より効果的な代替としてランダム化部分空間反復(RSI)を提案します。複数回のパワー・イテレーションを組み込むことで、RSIはスペクトル分離を改善し、近似品質を高めるための制御可能な仕組みを提供します。畳み込みネットワークとトランスフォーマーベースのアーキテクチャの両方で提案手法を評価します。結果として、RSIは、攻めた圧縮設定のもとで、予測精度においてRSVDを上回りつつ、ほぼ最適な近似品質を達成することが示されました。