スリーフェーズ・トランスフォーマー（3PT）

arXiv cs.CL / 2026/4/17

📰 ニュースModels & Research

共有:

要点

この論文は、SwiGLU + RMSNorm + RoPE + GQA の標準バックボーン上に構築された、デコーダ専用Transformer向けの残差ストリーム構造的事前知識「Three-Phase Transformer（3PT）」を提案しています。
隠れ状態をN個の循環チャネルに分割し、チャネルごとのRMSNorm、注意とFFN間のチャネル単位2D Givens回転、そしてGQAヘッドを分割に合わせる制約など、位相に整合した操作を適用します。
重要な新規性として、チャネルに直交する1次元のDCサブスペースに「ガブリエルのらせん（Gabriel’s horn）」の固定プロファイルを注入し、RoPEの相対位置の回転と直交的に合成されるよう設計されています。
WikiText-103での実験では、123Mパラメータの場合に3PTが一致したRoPEのみのベースラインに対してperplexityを7.20%改善し、さらに収束も1.93倍（ステップ数）速いことが示されます。
著者らは、自律的に形状が安定化する性質、回転角ドリフトの深さ方向でのU字型の挙動、そしてRoPE・注意・FFNとの直交的合成に関する分析結果も報告しています。

概要: 我々は、標準的なSwiGLU + RMSNorm + RoPE + GQAバックボーン上のデコーダのみ型Transformer向けの、残差ストリームの構造的事前知識であるThree-Phase Transformer（3PT）を提案する。隠れベクトルはN個の等サイズの巡回チャネルに分割され、それぞれのチャネルは位相を尊重する操作によって維持される：各チャネルに対するper-channel RMSNorm、注意（attention）とFFNの間の2次元ギヴンズ回転（Givens rotation）によって各チャネルを θ + i*(2*pi/N) だけ回転させること、そしてGQAのヘッド数の制約により、GQAヘッドを分割に整合させること、である。このアーキテクチャは、付け足しのモジュールではなく、スクランブル（攪乱）と再導入（re-imposition）の間における自己安定化の平衡状態である。分割は、チャネルに直交する1次元DC部分空間を切り出し、その部分空間に固定されたガブリエルのらせん（Gabriel's horn）プロファイル r(p) = 1/(p+1) を、絶対位置のサイドチャネルとして注入する。これはRoPEの相対位置の回転と直交的に合成される。規範的なN=3は、バランスの取れた3相AC（交流）の比喩を借りており、位相が120度ずれた3つの正弦波が和を取ると0になり、相関が反転したペアは存在しない。WikiText-103上で1.23億パラメータ時、3PTは、+1,536パラメータ（全体の0.00124%）の対応するRoPEのみベースラインに対して、-7.20%のパープレキシティ（-2.62%のbits-per-byte）を達成し、1.93倍のステップ数収束速度向上（1.64倍のウォールクロック）を示す。Nは、固有の最適解ではなく、パラメータ共有のための調整ノブとして振る舞う：5.5Mでは{1,2,3,4,6,8,12}に対するNスイープはほぼ単調で、N=1が勝つ；123Mでは3つのシードによるスイープでN=3とN=1は統計的に区別できない。荷重（load-bearing）を担う仕組みは、チャネル分割された残差ストリーム、ブロックごとの回転、位相ごとの正規化、そしてホーンのDC注入である。 (a) 明示的な強制なしに幾何（geometry）を自己安定化させること、すなわちニューラルネットワークに対する保存則フレームワークの新しい具体例；(b) 12層における回転角ドリフトのU字型の深さプロファイル；(c) RoPE、attention、そしてFFNとの直交的合成、を特徴づける。