よりスパースに、より高速に、より軽量なトランスフォーマ言語モデル

arXiv cs.LG / 2026/3/25

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己回帰型LLMの計算コストを、フィードフォワード層における非構造的スパース性を活用することで削減することを提案する。フィードフォワード層が支配的にパラメータ数とFLOPsを占めるためである。
  • 新たなスパース「パッキング」形式と、効率的なスパース計算のために、推論および学習の両方で現代的なGPU実行パイプラインに組み込めることを意図したCUDAカーネルを提示する。
  • 著者らは、L1正則化によりモデル性能への影響がほとんどないまま99%超のスパース性を誘導できると報告しており、定量的なスパース性の調査によって裏付けている。
  • 提案するスパース性とカーネルにより、スループット、エネルギー効率、メモリ使用量において大幅な改善が得られると主張しており、その効果はモデル規模が大きくなるほど増大する。
  • 本研究では、採用を促し、基盤モデルにおける効率化のレバーとしてのスパース性に関するさらなる研究を促進するため、コードとカーネルをオープンソースライセンスのもとで公開する予定である。

要旨: 自己回帰型の大規模言語モデル(LLM)のスケーリングは前例のない進歩をもたらしてきましたが、その一方で計算コストは膨大です。本研究では、LLMのフィードフォワード層内に存在する非構造的スパース性を活用することで、これらのコストに取り組みます。フィードフォワード層は、モデルパラメータの大部分と実行時のFLOPsの大部分を担う構成要素です。これを達成するために、新しいスパース・パッキング形式を導入し、さらに、現代のGPUの最適化された実行パイプラインにシームレスに統合できるよう設計した一連のCUDAカーネルを提案します。これにより、LLMの推論および学習中に効率的なスパース計算を実現します。得られる利得を裏付けるために、LLMのスパース性に関する定量的な調査を行い、単純なL1正則化によって、下流の性能への影響がほとんどないまま99%超のスパース性を誘発できることを示します。さらに、これらのカーネルと組み合わせることで、このようなスパース性の水準が、モデル規模の増大に伴って向上する、実質的なスループット、エネルギー効率、およびメモリ使用量の利点へとつながることを示します。現代の基盤モデルの効率性とスケーラビリティを改善するための実用的な軸としてスパース性を確立することに向けて、導入を促進し研究を加速するために、すべてのコードとカーネルをオープンソースライセンスのもとで公開します。