ハイパーループ・トランスフォーマー

arXiv cs.LG / 2026/4/24

📰 ニュースModels & Research

要点

  • 本論文は、メモリやレイテンシの制約下でLLMのパラメータ効率を高めることを目的とした新しいアーキテクチャ「Hyperloop Transformer」を提案しています。
  • 「ループ型Transformer」を中核として採用し、深さ方向でTransformer層を使い回すことで、(深さを揃えた)通常のTransformerよりもパラメータ効率を高めています。
  • ループ型のTransformerはbegin/middle/endの3ブロックに整理され、深さ方向ではmiddleブロックのみを再帰的に適用し、さらにmiddleブロックにはハイパーコネクションを導入して残差ストリームを行列値に拡張します。
  • 様々なモデル規模で、約50%少ないパラメータにもかかわらず、depth-matched TransformerおよびmHC Transformerのベースラインを上回る性能が示されています。
  • 事後学習での重み量子化後も優位性が維持されるため、同方式はメモリ効率の高い言語モデリングに適したアーキテクチャとして位置づけられます。

Abstract

LLMアーキテクチャの研究は一般に、固定された計算量/レイテンシの予算のもとでモデルの品質を最大化することを目指します。しかし、エッジやオンデバイス配備のような多くの注目されるアプリケーションは、さらにモデルのメモリ占有量によって制約されます。これにより、言語モデリングにおけるパラメータ効率の高いアーキテクチャが動機づけられます。本論文では、LLMのパラメータ効率を改善するシンプルなアーキテクチャを提案します。提案アーキテクチャは中核となるプリミティブとして、ループ化されたTransformerを用います。これにより、Transformer層を深さ方向に再利用できるため、通常の(深さが一致した)Transformerよりもパラメータ効率が高くなります。ループ化Transformerは3つのブロック(beginブロック、中間ブロック、endブロック)に整理されます。各ブロック自体は複数のTransformer層から構成されており、深さ方向には中間ブロックのみが再帰的に適用されます。さらに、ループ化された中間ブロックにハイパー接続(Xie et al., 2026)を組み込みます。これにより、残差ストリームが行列値の残差ストリームへと拡張されます。ハイパー接続は各ループの後にのみ適用されるため、新たに追加されるパラメータ数および計算コストは最小限に抑えられます。さまざまなモデル規模において、提案するハイパー接続付きループTransformer(Hyperloop Transformer)は、約50%少ないパラメータにもかかわらず、深さが一致したTransformerおよびmHC Transformerのベースラインを上回ることが分かりました。さらに、その優位性はポストトレーニングの重み量子化を通しても維持されます。したがって、Hyperloop Transformerはメモリ効率の高い言語モデリングにとって魅力的なアーキテクチャとして位置づけられます。