OASIS:メモリ効率の高い学習のためのオンライン活性化サブスペース学習

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM学習中に活性化の低次元表現を継続的に更新し続けるオンライン活性化サブスペース学習手法であるOASISを提案する。
  • 中間活性化をこの変化するサブスペースへ射影することで、OASISは順伝播の計算を変えずに活性化メモリを削減し、モデル挙動をそのまま維持する。
  • 学習された活性化サブスペースは、低ランクの勾配表現も得られるため、勾配やオプティマイザ状態を縮約された空間に保存/維持できる。
  • サブスペース更新に合わせてオプティマイザ状態を転送する、射影を考慮したオプティマイザを提案し、サブスペースが進化する間の学習安定性を目指す。
  • 事前学習および微調整タスクにまたがる実験では、フルな微調整と比べてピークメモリを最大2倍低減しつつ性能を同等に維持し、従来の低ランク手法よりも優れていることが報告されている。

要約: 大規模言語モデル(LLM)の学習は、メモリ要件によって制約されており、活性(アクティベーション)が全体のフットプリントの相当な割合を占めます。既存の手法では、重みパラメータ化やオプティマイザ状態の勾配部分空間に対して低ランク表現を用いることでメモリを削減しています。一方で、活性メモリは、建築(アーキテクチャ)の変更、または定期的に更新される射影に基づく圧縮方式によって対処されています。私たちは、学習中に低次元の活性部分空間を追跡し、継続的に更新する、メモリ効率の高い学習のためのオンライン活性部分空間学習アルゴリズム OASIS を提案します。中間活性は、この変化していく部分空間へ射影され、順伝播計算を変更することなくメモリを削減します。変化していく活性部分空間は低ランクの勾配表現を誘導し、その部分空間の中で勾配とオプティマイザ状態の両方を直接保持できるようにします。また、射影を考慮したオプティマイザが、サブスペース更新のたびにオプティマイザ状態を一貫してサブスペース間で適切に移送することで、安定した学習を実現します。さまざまな微調整および事前学習タスクにおいて、OASIS はフルな微調整と同等の性能を維持しつつ、既存の低ランク手法よりも優れ、ピークメモリを最大 2\times 低くします。