Sparse Growing Transformer:プログレッシブな注意ループによる学習時のスパース深さ割り当て

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Transformerの有効深さを増やす既存手法が硬直的であり、学習の間ずっとパラメータや層に対して深さを静的に割り当てることで、学習時の計算的冗長性が生じると主張する。
  • それに対し、Sparse Growing Transformer(SGT)を提案する。SGTは、情報量の多いヘッドを対象にした注意ループを用いて、深い層から浅い層へと漸進的に再帰(recurrence)を延長する学習時スパース深さ割り当て手法である。
  • 本手法は、計算を一様に追加するのではなく、学習が進むにつれて深さを追加するのをパラメータのごく一部のみに限定することで、構造的スパース性を誘導する。
  • 複数のパラメータスケールでの実験により、SGTは同等の設定下で、学習時静的なブロック単位ループのベースラインを上回る性能を示す。
  • このアプローチは学習時の計算オーバーヘッドを大幅に削減し、追加学習FLOPsを、標準的なTransformerバックボーンに対して概ね16〜20%から約1〜3%へと低下させる。

Abstract

Transformerの有効な深さを増やす既存の手法は主に、パラメータ再利用と再帰的実行による計算の拡張に依存している。 このパラダイムでは、ネットワーク構造は学習のタイムライン全体を通じて静的なままであり、追加の計算深さはパラメータレベルで一様に、ブロック全体に割り当てられる。 学習時間とパラメータ空間にわたるこの硬直性は、学習中に大きな計算冗長性を引き起こす。 これに対して我々は、学習中の深さ割り当ては静的な事前設定ではなく、段階的に成長していく構造的プロセスであるべきだと主張する。 本稿の体系的な分析により、層間において深部から浅部へと向かう成熟(maturation)の軌跡が存在し、高エントロピーの注意(attention)ヘッドが意味統合において重要な役割を果たすことが明らかになった。 この観察に動機づけられ、Sparse Growing Transformer(SGT)を提案する。 SGTは、学習時のスパースな深さ割り当ての枠組みであり、有益なヘッドに対する的を絞った注意ループにより、より深い層から浅い層へと再帰性を段階的に拡張する。 この仕組みにより、学習が進むにつれて、深さは少数のパラメータ集合に対してのみ選択的に増加させられることで、構造的スパース性が生じる。 複数のパラメータスケールにわたる大規模な実験の結果、SGTは同等の設定のもとで、学習時の静的なブロックレベル・ループ基線を一貫して上回ることが示された。 さらに、追加の学習FLOPsのオーバーヘッドを、標準的なTransformerバックボーンに対して約16--20%から、わずか1--3%にまで低減できることが確認された。