ハイパーループ・トランスフォーマー
arXiv cs.LG / 2026/4/24
📰 ニュースModels & Research
要点
- 本論文は、メモリやレイテンシの制約下でLLMのパラメータ効率を高めることを目的とした新しいアーキテクチャ「Hyperloop Transformer」を提案しています。
- 「ループ型Transformer」を中核として採用し、深さ方向でTransformer層を使い回すことで、(深さを揃えた)通常のTransformerよりもパラメータ効率を高めています。
- ループ型のTransformerはbegin/middle/endの3ブロックに整理され、深さ方向ではmiddleブロックのみを再帰的に適用し、さらにmiddleブロックにはハイパーコネクションを導入して残差ストリームを行列値に拡張します。
- 様々なモデル規模で、約50%少ないパラメータにもかかわらず、depth-matched TransformerおよびmHC Transformerのベースラインを上回る性能が示されています。
- 事後学習での重み量子化後も優位性が維持されるため、同方式はメモリ効率の高い言語モデリングに適したアーキテクチャとして位置づけられます。


