Nexusformer:安定的かつ継承可能なトランスフォーマー拡張のための非線形アテンション拡張

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、標準的な注意機構が線形のQ/K/V投影を用いることで特徴抽出が固定次元の部分空間に制限され、学習済み表現を捨てずに拡張することが難しい点がボトルネックだと指摘しています。
  • 提案する「Nexusformer」は、線形Q/K/V投影をNexus-Rankレイヤー(デュアル活性による段階的に高次元へ写像する3段階の非線形マッピング)に置き換えます。
  • ゼロ初期化したブロックにより新しい容量を2つの軸方向に注入できるため、学習済み知識を保持しつつ段階的に能力を増やす「損失のない構造的成長」を実現します。
  • 言語モデリングおよび推論ベンチマークの実験では、Nexusformerが進行的スケーリング(240M〜440M)で学習計算量を最大41.5%削減しながらTokenformerの困惑度を同等に達成することを示しています。
  • 成長ダイナミクスの分析から、ゼロ初期化が安定した収束経路をもたらし、拡張スケール間の性能を予測できる幾何学的なスケーリング則も導出されています。

Abstract

スケーリング・トランスフォーマーでは通常、既存の学習済み表現を捨てずに拡張しようとすると標準的なアーキテクチャがうまく対応できないため、より大規模なモデルを最初から学習する必要があります。私たちは、注意機構における線形射影がもたらす主要なボトルネックを特定します。線形射影は、特徴抽出を固定次元の部分空間に厳密に閉じ込めてしまい、表現力と漸増的な容量の両方を制限します。これに対処するため、線形の Q/K/V 射影を Nexus-Rank 層で置き換える Nexusformer を提案します。Nexus-Rank 層は、より高い次元の空間へ段階的に進むことに対応して、二つの活性化によって駆動される三段階の非線形写像です。この設計により、線形性の制約を克服し、損失のない構造的成長を実現できます。新しい容量は、学習済み知識を保持するゼロ初期化されたブロックを通じて、二つの軸に沿って注入可能です。言語モデリングおよび推論ベンチマークでの実験では、Nexusformer は漸進的スケーリング(240M から 440M)において、最大 41.5\% 少ない学習計算量で Tokenformer のパープレキシティに匹敵することが示されます。さらに、成長ダイナミクスの解析により、ゼロ初期化が安定した収束軌道を誘発することがわかります。これに基づいて、拡張スケール全域にわたる性能を正確に予測する幾何学的なスケーリング則を導出します。