ELAS：2:4のアクティベーション・スパーシティによる低ランク大規模言語モデルの効率的な事前学習

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、アクティベーション行列をフルランクのままにせず、アクティベーション側に2:4の構造化スパーシティを適用することで、低ランクLLMを効率的に事前学習する枠組みELASを提案する。
ELASは低ランクのフィードフォワード層に二乗ReLUを用いた変形を加え、その後の二乗ReLU出力に対してNVIDIA向けの2:4構造化スパース形式を実装する。
60M〜1BパラメータのLLaMAモデルを対象にした実験では、ELASがベースラインからの性能劣化を最小限に抑えつつ効果を維持できることが示される。
この手法により学習・推論の加速と、特に大バッチ設定でのアクティベーション記憶オーバーヘッドの削減が同時に実現される。
著者らは、再現や追加検証を可能にするためにコードがELAS Repoで公開されていると述べている。

概要: 大規模言語モデル（LLM）は目覚ましい能力を達成してきましたが、学習時に必要となる莫大な計算需要は、広く普及するための重要なボトルネックとして残っています。低ランク学習は、学習時のメモリ使用量を大幅に削減できることから、近年注目を集めています。一方で、重みおよび活性に2:4の構造化スパース性を適用し、NVIDIA GPUが提供する2:4構造化スパース形式を活用することは有望な方向性となっています。しかし、既存の低ランク手法の多くは活性行列をフルランクのままにしており、これがメモリ消費を支配して大バッチ学習時のスループットを制限しています。さらに、重みに対して直接スパース性を適用すると、無視できない性能劣化につながることがあります。LLMを効率的に事前学習するために、本論文はELASを提案します。ELASは、2:4活性スパース性による低ランクLLMの効率的な事前学習、という、2:4活性スパース性を用いた低ランクモデルのための新しい枠組みです。ELASは、低ランクモデルのフィードフォワードネットワークに二乗ReLU活性関数を適用し、二乗ReLU操作の後に活性に対して2:4の構造化スパース性を実装します。LLaMAモデル（60Mから1Bパラメータの範囲）を対象に事前学習実験を行い、ELASを評価しました。その結果、ELASは2:4活性スパース性を適用した後も、最小限の劣化で性能を維持しつつ、学習および推論の加速を実現できることが示されました。さらに、ELASは、特に大きなバッチサイズにおいて、活性メモリのオーバーヘッドを削減します。コードはELAS Repoで利用可能です。