SpectralLoRA: LoRA適応には低周波構造で十分か?重み更新のスペクトル解析

arXiv cs.LG / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、4つのGLUEタスクにわたってBERT-baseおよびRoBERTa-baseを対象に学習した適応行列に対し、2D DCTを用いてLoRA重み更新の系統的なスペクトル解析を行う。
  • LoRAの更新は一貫して低周波成分に支配されており、平均してDCT係数の33%がスペクトルエネルギーの90%を捉えることを見出す。
  • 周波数係数の10%のみを保持することで、アダプタの保存容量を約10倍削減できる一方、SST-2における性能低下は比較的小さく1.95パーセントポイントに留まる。
  • 約50%の周波数マスキングは、8つのモデル–タスクの組のうち3つにおいて全LoRAを上回り、高周波成分は信号よりもノイズとして寄与している可能性が示唆される。
  • 本研究は、BERT-baseよりもRoBERTa-baseの方がスペクトル的により高圧縮性が高いこと、またタスクの複雑さが必要なスペクトル予算に影響することを示す(例:NLIは感情タスクよりも高周波容量を多く必要とする)。

要旨: 本稿では、LoRA 重み更新のスペクトル構造に関する体系的な実証研究を提示する。BERT-base および RoBERTa-base を、4つの GLUE ベンチマーク(SST-2、MNLI、CoLA、QQP)に対して訓練した適応行列を、2次元離散コサイン変換(DCT)により分析することで、LoRA の更新が一貫して低周波成分によって支配されることを示す。平均すると、DCT 係数のわずか 33% が全スペクトルエネルギーの 90% を捉える。周波数係数のうち 10% だけを保持すると、アダプタの保存量は 10倍に削減できる一方で、SST-2 での性能低下はわずか 1.95pp にとどまる。特に、k=50% による周波数マスキングは、8つのモデル-タスクペアのうち 3つで、フルの LoRA を上回る改善を示し、高周波成分が適応ノイズとして働くことを示唆する。さらに、RoBERTa-base は BERT-base よりも、すべてのタスクにおいて一貫してスペクトル的により圧縮しやすいこと、またタスクの複雑さがスペクトル感度を支配することを発見する――NLI タスクは感情分類よりも多くの周波数予算を必要とする。これらの知見は、PEFT に対する新たな設計原理、すなわち適応におけるスペクトルの疎性を動機づける。