ShadowPEFT:シャドウ・ネットワークによるパラメータ効率の良い微調整

arXiv cs.CL / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • ShadowPEFTは、LLMのための新しいパラメータ効率の良い微調整手法で、学習済みバックボーンを凍結し、LoRAのような分散した低ランクの重み摂動ではなく、中央集権化された「シャドウ」モジュールによる表現の層(レイヤ)空間での改良を行います。
  • ShadowPEFTは各トランスフォーマ層で並列のシャドウ状態を維持し、これを繰り返し発展させることで、より豊かな隠れ表現を段階的に構築します。
  • シャドウ・モジュールはバックボーンから切り離されているため、深さ方向にわたって再利用でき、独立に事前学習も可能で、さらにエッジ計算向けに「切り離し(detached)モード」での展開も選択できます。
  • 生成・理解ベンチマークの実験では、ShadowPEFTが同等の学習可能パラメータ数の条件下でLoRAおよびDoRAに匹敵、または上回る性能を示し、事前学習、データセット間転移、スケーリング、推論レイテンシ、システム評価に関する追加分析でも有望さが示されています。

Abstract

パラメータ効率の高い微調整(PEFT)は、事前学習済みのバックボーンを凍結し、タスク固有の少数のパラメータだけを学習することで、大規模言語モデル(LLM)のフルパラメータ微調整に比べて学習コストを削減します。しかし、低ランク適応(Low-Rank Adaptation: LoRA)など既存の手法では、各重みに独立した低ランクの摂動を直接挿入することで適応を実現しており、その結果、適応の局所的なパラメータ化が生じます。そこで本論文では、深さ共有のシャドーモジュールによってレイヤーレベルの洗練を行う、集中型のPEFTフレームワークであるShadowPEFTを提案します。各トランスフォーマ層において、ShadowPEFTは並列のシャドー状態を維持し、それを反復的に進化させることで、より豊かな隠れ状態を段階的に得ます。この設計は、適応を分散した重み空間の摂動から、共有された層空間の洗練プロセスへと移します。シャドーモジュールはバックボーンから切り離されているため、深さ方向で再利用でき、独立に事前学習でき、また必要に応じて切り離しモードでデプロイすることも可能であり、エッジコンピューティングのシナリオに利点をもたらします。生成および理解のベンチマークに関する実験では、ShadowPEFTが、同等の学習可能パラメータ予算のもとでLoRAおよびDoRAと同等、またはそれらを上回る性能を示すことが分かりました。さらに、シャドーの事前学習、クロスデータセット転移、パラメータスケーリング、推論レイテンシ、システムレベルの評価に関する追加分析から、集中型の層空間適応は、従来の低ランクPEFTに対する競争力のある柔軟な代替案であることが示唆されます。