Sparse Growing Transformer:プログレッシブな注意ループによる学習時のスパース深さ割り当て
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Transformerの有効深さを増やす既存手法が硬直的であり、学習の間ずっとパラメータや層に対して深さを静的に割り当てることで、学習時の計算的冗長性が生じると主張する。
- それに対し、Sparse Growing Transformer(SGT)を提案する。SGTは、情報量の多いヘッドを対象にした注意ループを用いて、深い層から浅い層へと漸進的に再帰(recurrence)を延長する学習時スパース深さ割り当て手法である。
- 本手法は、計算を一様に追加するのではなく、学習が進むにつれて深さを追加するのをパラメータのごく一部のみに限定することで、構造的スパース性を誘導する。
- 複数のパラメータスケールでの実験により、SGTは同等の設定下で、学習時静的なブロック単位ループのベースラインを上回る性能を示す。
- このアプローチは学習時の計算オーバーヘッドを大幅に削減し、追加学習FLOPsを、標準的なTransformerバックボーンに対して概ね16〜20%から約1〜3%へと低下させる。