Abstract
スケーリング・トランスフォーマーでは通常、既存の学習済み表現を捨てずに拡張しようとすると標準的なアーキテクチャがうまく対応できないため、より大規模なモデルを最初から学習する必要があります。私たちは、注意機構における線形射影がもたらす主要なボトルネックを特定します。線形射影は、特徴抽出を固定次元の部分空間に厳密に閉じ込めてしまい、表現力と漸増的な容量の両方を制限します。これに対処するため、線形の Q/K/V 射影を Nexus-Rank 層で置き換える Nexusformer を提案します。Nexus-Rank 層は、より高い次元の空間へ段階的に進むことに対応して、二つの活性化によって駆動される三段階の非線形写像です。この設計により、線形性の制約を克服し、損失のない構造的成長を実現できます。新しい容量は、学習済み知識を保持するゼロ初期化されたブロックを通じて、二つの軸に沿って注入可能です。言語モデリングおよび推論ベンチマークでの実験では、Nexusformer は漸進的スケーリング(240M から 440M)において、最大 41.5\% 少ない学習計算量で Tokenformer のパープレキシティに匹敵することが示されます。さらに、成長ダイナミクスの解析により、ゼロ初期化が安定した収束軌道を誘発することがわかります。これに基づいて、拡張スケール全域にわたる性能を正確に予測する幾何学的なスケーリング則を導出します。