JumpLoRA:大規模言語モデルにおける継続学習のためのスパース・アダプタ

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、壊滅的忘却を抑えるために、LoRAブロックに対してスパース性を適応的に導入する大規模言語モデル向け継続学習フレームワーク「JumpLoRA」を提案しています。
  • JumpReLUによるゲーティングを用いて動的なパラメータ分離を実現し、連続的なタスク学習におけるタスク間干渉の抑制を目指しています。
  • JumpLoRAは既存のLoRAベースの継続学習手法と高い互換性を持つ、モジュール性の高いアプローチとして位置づけられています。
  • 実験ではIncLoRAに対して大幅な性能向上が示され、さらに最先端の継続学習手法であるELLAを上回ることが報告されています。

Abstract

アダプタベースの手法は、大規模言語モデル(LLM)に対する継続学習(CL)を、各タスクごとに低ランク更新行列を順次学習することで、費用対効果の高いアプローチとして確立しつつある。壊滅的忘却を抑えるために、最先端のアプローチでは、新しいアダプタに対して、従来のアダプタに関する制約を課すことで対応している。具体的には、部分空間への干渉、または座標ごとの干渉のいずれかを対象としている。本論文では、JumpReLU ゲーティングの利用によって、低ランク適応(LoRA)ブロックにおけるスパース性を適応的に誘導する新しい枠組み JumpLoRA を提案する。この手法は動的なパラメータ分離を実現し、タスク間の干渉の防止に役立つ。さらに本手法が高度にモジュール化されており、LoRA ベースの CL アプローチと互換性があることを示す。具体的には、IncLoRA の性能を大きく向上させ、最先端の継続学習手法である ELLA を上回る。