よりスパースに、より高速に、より軽量なトランスフォーマ言語モデル

arXiv cs.LG / 2026/3/25

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自己回帰型LLMの計算コストを、フィードフォワード層における非構造的スパース性を活用することで削減することを提案する。フィードフォワード層が支配的にパラメータ数とFLOPsを占めるためである。
新たなスパース「パッキング」形式と、効率的なスパース計算のために、推論および学習の両方で現代的なGPU実行パイプラインに組み込めることを意図したCUDAカーネルを提示する。
著者らは、L1正則化によりモデル性能への影響がほとんどないまま99%超のスパース性を誘導できると報告しており、定量的なスパース性の調査によって裏付けている。
提案するスパース性とカーネルにより、スループット、エネルギー効率、メモリ使用量において大幅な改善が得られると主張しており、その効果はモデル規模が大きくなるほど増大する。
本研究では、採用を促し、基盤モデルにおける効率化のレバーとしてのスパース性に関するさらなる研究を促進するため、コードとカーネルをオープンソースライセンスのもとで公開する予定である。

要旨: 自己回帰型の大規模言語モデル（LLM）のスケーリングは前例のない進歩をもたらしてきましたが、その一方で計算コストは膨大です。本研究では、LLMのフィードフォワード層内に存在する非構造的スパース性を活用することで、これらのコストに取り組みます。フィードフォワード層は、モデルパラメータの大部分と実行時のFLOPsの大部分を担う構成要素です。これを達成するために、新しいスパース・パッキング形式を導入し、さらに、現代のGPUの最適化された実行パイプラインにシームレスに統合できるよう設計した一連のCUDAカーネルを提案します。これにより、LLMの推論および学習中に効率的なスパース計算を実現します。得られる利得を裏付けるために、LLMのスパース性に関する定量的な調査を行い、単純なL1正則化によって、下流の性能への影響がほとんどないまま99%超のスパース性を誘発できることを示します。さらに、これらのカーネルと組み合わせることで、このようなスパース性の水準が、モデル規模の増大に伴って向上する、実質的なスループット、エネルギー効率、およびメモリ使用量の利点へとつながることを示します。現代の基盤モデルの効率性とスケーラビリティを改善するための実用的な軸としてスパース性を確立することに向けて、導入を促進し研究を加速するために、すべてのコードとカーネルをオープンソースライセンスのもとで公開します。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

ブラウザだけで完結する運転免許証OCRデモを作ってみた

Qiita

API vs Local LLM、まだ感覚で選んでないか？

Qiita

【GPTモデル】改めて振り返るLLMの歴史

Zenn

ねこと学ぶ🐱 Apple Silicon で LLM 推論を最適化する Hypura を試す

Zenn

よりスパースに、より高速に、より軽量なトランスフォーマ言語モデル

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

ブラウザだけで完結する運転免許証OCRデモを作ってみた

API vs Local LLM、まだ感覚で選んでないか？

【GPTモデル】改めて振り返るLLMの歴史

ねこと学ぶ🐱 Apple Silicon で LLM 推論を最適化する Hypura を試す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer