リカレント・トランスフォーマー:より大きな実効デプスと効率的なデコード

arXiv cs.LG / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、標準的なTransformerが「時間方向に浅い」のは、各層が直前の層で計算されたキー/バリューにしか注目できず、実効的な深さが層数に上限があるためだと述べています。
  • 「リカレント・トランスフォーマー」では、各層が自分自身の活性から計算したキー/バリューに対して注意を行うことで、層ごとの再帰的メモリを追加しつつ、自己回帰デコードのコストは標準のまま維持します。
  • 著者らは、このアーキテクチャが従来Transformerとトークン間の再帰的更新の両方を(穏やかな仮定のもとで)エミュレートでき、再帰モデルでよく見られる最適化不安定性を回避できると示しています。
  • さらに、同じ数学的計算を保ったままプリフィル/学習時のHBM通信量をΘ(N²)からΘ(N log N)へ削減する、タイル(tiling)ベースのアルゴリズムを提案しており、実効的な算術強度をΘ(N/log N)まで高めます。
  • C4での150M/300Mパラメータの事前学習実験では、パラメータ数を揃えたTransformer基準に対してクロスエントロピーが改善し、その効果を少ない層数で達成できたため、KVキャッシュのメモリ削減や推論レイテンシ低下につながる可能性が示唆されています。

リカレント・トランスフォーマー:より大きな実効デプスと効率的なデコード | AI Navigate