概要: 我々は、標準的なSwiGLU + RMSNorm + RoPE + GQAバックボーン上のデコーダのみ型Transformer向けの、残差ストリームの構造的事前知識であるThree-Phase Transformer(3PT)を提案する。隠れベクトルはN個の等サイズの巡回チャネルに分割され、それぞれのチャネルは位相を尊重する操作によって維持される:各チャネルに対するper-channel RMSNorm、注意(attention)とFFNの間の2次元ギヴンズ回転(Givens rotation)によって各チャネルを θ + i*(2*pi/N) だけ回転させること、そしてGQAのヘッド数の制約により、GQAヘッドを分割に整合させること、である。このアーキテクチャは、付け足しのモジュールではなく、スクランブル(攪乱)と再導入(re-imposition)の間における自己安定化の平衡状態である。分割は、チャネルに直交する1次元DC部分空間を切り出し、その部分空間に固定されたガブリエルのらせん(Gabriel's horn)プロファイル r(p) = 1/(p+1) を、絶対位置のサイドチャネルとして注入する。これはRoPEの相対位置の回転と直交的に合成される。規範的なN=3は、バランスの取れた3相AC(交流)の比喩を借りており、位相が120度ずれた3つの正弦波が和を取ると0になり、相関が反転したペアは存在しない。WikiText-103上で1.23億パラメータ時、3PTは、+1,536パラメータ(全体の0.00124%)の対応するRoPEのみベースラインに対して、-7.20%のパープレキシティ(-2.62%のbits-per-byte)を達成し、1.93倍のステップ数収束速度向上(1.64倍のウォールクロック)を示す。Nは、固有の最適解ではなく、パラメータ共有のための調整ノブとして振る舞う:5.5Mでは{1,2,3,4,6,8,12}に対するNスイープはほぼ単調で、N=1が勝つ;123Mでは3つのシードによるスイープでN=3とN=1は統計的に区別できない。荷重(load-bearing)を担う仕組みは、チャネル分割された残差ストリーム、ブロックごとの回転、位相ごとの正規化、そしてホーンのDC注入である。 (a) 明示的な強制なしに幾何(geometry)を自己安定化させること、すなわちニューラルネットワークに対する保存則フレームワークの新しい具体例;(b) 12層における回転角ドリフトのU字型の深さプロファイル;(c) RoPE、attention、そしてFFNとの直交的合成、を特徴づける。
スリーフェーズ・トランスフォーマー(3PT)
arXiv cs.CL / 2026/4/17
📰 ニュースModels & Research
要点
- この論文は、SwiGLU + RMSNorm + RoPE + GQA の標準バックボーン上に構築された、デコーダ専用Transformer向けの残差ストリーム構造的事前知識「Three-Phase Transformer(3PT)」を提案しています。
- 隠れ状態をN個の循環チャネルに分割し、チャネルごとのRMSNorm、注意とFFN間のチャネル単位2D Givens回転、そしてGQAヘッドを分割に合わせる制約など、位相に整合した操作を適用します。
- 重要な新規性として、チャネルに直交する1次元のDCサブスペースに「ガブリエルのらせん(Gabriel’s horn)」の固定プロファイルを注入し、RoPEの相対位置の回転と直交的に合成されるよう設計されています。
- WikiText-103での実験では、123Mパラメータの場合に3PTが一致したRoPEのみのベースラインに対してperplexityを7.20%改善し、さらに収束も1.93倍(ステップ数)速いことが示されます。
- 著者らは、自律的に形状が安定化する性質、回転角ドリフトの深さ方向でのU字型の挙動、そしてRoPE・注意・FFNとの直交的合成に関する分析結果も報告しています。




