ShishuLM：低注意Transformerモデルによる最適かつ効率的なパラメータ化の実現

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、モデル上部の完全なデコーダ層をMLPのみのブロックに置き換えることで、Transformerの計算量を削減する効率的な言語モデルアーキテクチャ「ShishuLM」を提案する。
通常の注意（attention）中心のモデルと比較して、生成遅延を最大10〜60%低減し、スループットを1.3〜5倍向上させるなど、性能特性の改善を報告している。
著者らはさらに、隣接するMLPのみの層間でパラメータ共有を提案し、性能劣化を最小限に抑えつつ、最大20%のメモリ節約を達成した。
この研究は、高層における注意サブレイヤ内のアーキテクチャ的冗長性が観測されたこと、ならびに推論時の層プルーニングや深さ依存の計算に関する先行研究に動機づけられている。
全体として、Transformer層を通じた情報の流れ方を活用することで、事前学習時のモデルアーキテクチャをより効率的に構築するための指針を提供している。

Abstract

トランスフォーマー・アーキテクチャは自然言語処理タスクで最先端の性能を達成しているものの、これらのモデルは大きなメモリおよび計算オーバーヘッドを課しています。近年の研究では、これらのモデル内部、とりわけ上位層における注意（attention）サブレイヤ内に重要なアーキテクチャ上の冗長性が存在することが明らかになっており、性能を損なうことなく最適化の余地があります。推論時の層プルーニングや、言語モデルにおける深さ依存の計算に関する研究から得られた知見をもとに、ShishuLM と呼ばれる効率的な言語モデル・アーキテクチャを提案します。モデル上部の完全なデコーダ層を MLP のみのブロックで置き換えることで、生成レイテンシが最大 10-60% 改善し、スループットで 1.3 -5

\times

の向上を達成します。さらに、ShishuLM の隣接する MLP のみの層間でパラメータを共有することで、性能への軽微な低下にとどめつつ、メモリを最大 20% 節約できます。本研究の結果は、トランスフォーマーにおける情報の流れの仕方を活用することで、事前学習の観点からより効率的な言語モデリング・アーキテクチャを構築するための示唆を提供します。