共有重みトランスフォーマにおける階層型反復とフラット反復

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、共有重みの階層型リカレント構造が、独立したTransformer層の積み重ねと同等の表現品質を実現できるかを検証します。
  • HRM-LMはN層のTransformerの代わりに、2つの速度を持つリカレント設計を採用し、毎ステップ動作するFastモジュールで局所的な改良を行い、Tステップごとに動作するSlowモジュールで大域的な圧縮を行います。
  • この階層的リカレント構造は、共有パラメータでM = N×Tステップに展開(unroll)して計算されます。
  • さらに、パラメータ数を揃えたUniversal Transformerのアブレーション(UniTF、12億)を5回の独立実験で行い、その結果として両アプローチの間に頑健で大きな実証ギャップがあることを示しています。

要旨: 本稿では、階層的に構造化され、共有重みを用いる再帰を、Transformer系の言語モデルにおける独立層の積み重ね(スタッキング)の表現品質に匹敵できるかどうかについての実証的研究を提示する。HRM-LMは、L個の独立したTransformer層を、2つの速度を持つ再帰ペアで置き換える。すなわち、局所的な洗練のために各ステップで動作するFastモジュールと、グローバルな圧縮のためにTステップごとに動作するSlowモジュールである。この再帰階層は、共有パラメータを用いて、M = N x T ステップにわたって展開される。中心的で、かつ最も頑健な発見は、5回の独立した実験実行にわたるパラメータ数を揃えたUniversal Transformerのアブレーション(UniTF, 1.2B)によって裏付けられているが、2つのアプローチの間に、鋭い実証上のギャップが存在するという点である。