前処理付きアテンション:トランスフォーマーにおける効率の向上
arXiv cs.LG / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、標準的なトランスフォーマーのアテンションが、条件数が大きい非良条件(ill-conditioned)のアテンション行列を形成し得ることを主張しており、これが学習時の勾配ベース最適化の効率を阻害する。
- 各アテンションヘッド内に条件付け行列を追加することで、アテンション行列の条件数を低減する「前処理付きアテンション(preconditioned attention)」を提案する。
- 提案する条件付けは行列の条件付けを改善することが理論的結果として示されており、最適化をより有効にすることが期待される。
- 前処理付きアテンションは、文献中の多くの既存アテンション変種に対するシンプルなドロップイン置換として設計されている。
- 画像(分類、検出、セグメンテーション)、長い系列のモデリング、言語モデリングなど、複数のタスクにまたがる実験により、本手法が学習の効率と有効性を向上させることが検証される。



