大規模言語モデルの低ランク分解における重要度ガイド付き基底選択

arXiv cs.LG / 2026/5/5

📰 ニュースModels & Research

共有:

要点

低ランク分解は大規模言語モデルを圧縮する有力な手法ですが、性能はタスクに応じてどの特異ベクトル基底を保持するかの選択に大きく左右されます。
本稿は、従来手法（下流データで係数を適応させたり、再学習された大きさが小さい基底を刈り込むなど）が、損失地形の局所的な幾何を無視するために、タスク性能とずれる可能性があると指摘しています。
そこで、各基底を削除したときに生じる損失増加の期待値を推定して基底を順位付け・刈り込みする「Basis Selection with Importance（BSI）」を提案します。
BSIは第2次テイラー展開に基づき、感度（一次）と曲率（二次）を組み合わせて剪定の影響を定量化し、さらにLLM向けに実用化するためにヘッセ行列対角を効率的に推定する手法を開発しています。
数学的推論ベンチマークでの実験では、BSIが既存の低ランク分解ベースラインを一貫して上回り、とりわけ深い圧縮条件で大幅な改善が見られ、理論的な上界やサンプル複雑度保証も示されています。

要旨: 低ランク分解は、大規模言語モデルを圧縮するための説得力のあるアプローチですが、その有効性は、対象タスクに対してどの特異ベクトル基底を保持するかの選択に大きく依存します。Baselのような既存手法は、下流データに基づいて特異値係数を適応させ、再学習された大きさが小さい基底を刈り込みます。しかし、このヒューリスティックは、損失地形の局所的な幾何を無視するため、タスク性能と整合しない可能性があります。本稿では、各基底を取り除いたときに生じる期待損失増加を直接推定することで基底を順位付けし刈り込む、原理に基づく低ランク圧縮フレームワークである Basis Selection with Importance (BSI) を提案します。BSIは、特異値に関するタスク損失の2次テイラー展開から導出した導関数ベースの重要度スコアにより、刈り込みの影響を定量化するために1次の感度と2次の曲率を組み合わせます。LLMに対してこの判定基準を実用可能にするため、対称なパラメータ摂動により、損失の曲率に適応させたHutchinsonの確率的プロービング手法を用いて、効率的なヘッセ部分対角推定器を開発します。基底刈り込みに関する損失増加の上界、これらの上界へのヘッセ部分対角推定誤差の明示的な伝播、ヘッセスペクトルに結び付いた分散の特性、高い確率での目標推定精度を達成するためのサンプル複雑度の保証、そして摂動強度に関する指針を含む包括的な理論解析を提供します。数学的推論ベンチマークに対する大規模な実験により、BSIは最先端の低ランク分解ベースラインを一貫して上回り、とりわけ深い圧縮条件で顕著な改善が見られることを示します。