現代のトランスフォーマーアーキテクチャにおける残差ストリームの二重性

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トランスフォーマー設計空間を二つの軸(シーケンス位置と層の深さ)に沿って整理することを提案し、残差ストリームをモデルの表現機構の一部として扱う。
  • 残差ストリームのデュアリティを提案し、トークン位置を固定して深さを変化させた場合、因果的深さ方向の残差注意演算子が因果的ShortSWAと同等であることを示し、この観点をTransformer^2と名付けた。
  • 本研究は、最近の手法(ELC-BERT、DenseFormer、Vertical Attention、DeepCrossAttention、MUDDFormer、Attention Residuals)を概観し、深さ方向の集約と明示的なルーティングが、一様な残差蓄積よりも優れる可能性を示す。
  • 実用的な指針を提供する:ShortSWAは大規模な自回帰モデルに対してハードウェアに優しい一方、ショートカット自体を変更対象とする場合にはDeep Delta Learning(DDL)が望ましい。
  • 著者らは文献を整理し、深さに基づく集約を適用する場合と残差演算子の変更を適用する場合の基準を提供することを目指している。

要旨: 最近の研究は、残差経路が単なる最適化の配管ではなく、モデルの表現機構の一部であることを明らかにしている。われわれは同意するが、この設計空間を整理する最もすっきりとした方法は、Transformerを二軸の視点で見ることだと主張する。デコーダーは情報を二つの秩序付けられた次元に沿って進化させる。すなわち、シーケンス位置と層の深さ。自己注意はすでにシーケンス軸に沿った適応的な混合を提供する一方、残差ストリームは通常深さ軸に沿って固定の加算を行う。トークン位置を固定し、層インデックスを順序変数として扱うと、因果深さ方向の残差注意の読み出しは、因果的ショートスライディングウィンドウ注意(ShortSWA)と全く同じ局所演算子になる、ただし深さ方向に書かれている。これは Transformer^2 の背後にある残差ストリームの核となる二重性である。この観点は最近の文献も明確にする。ELC-BERT と DenseFormer はすでに、深さに沿った学習された集約が一様な残差蓄積を上回ることを示しており、Vertical Attention、DeepCrossAttention (DCA)、MUDDFormer、Attention Residuals は初期層に対する明示的な注意に基づくルーティングへとさらに踏み込んでいる。しかし、重要な点は、演算子レベルのデュアル性がシステムレベルの対称性を意味するわけではないということだ。大規模な自己回帰モデルでは、シーケンス軸 ShortSWA が通常、ハードウェアにやさしい配置である。なぜなら、それはトークン側のスライディングウィンドウ・カーネル、KVキャッシュのレイアウト、チャンク実行を再利用できるからだ。もし目的が代わりにショートカット自体を変更することなら、Deep Delta Learning (DDL) はよりクリーンな介入であり、残差演算子を直接修正し、別の層間リトリーブ経路を追加するのではない。したがって、我々の推奨は単純である。ショートカットが対象物である場合には DDL を使用し、局所的な適応的混合が目的である場合にはシーケンス軸 ShortSWA を使用する。