前処理付きアテンション：トランスフォーマーにおける効率の向上

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、標準的なトランスフォーマーのアテンションが、条件数が大きい非良条件（ill-conditioned）のアテンション行列を形成し得ることを主張しており、これが学習時の勾配ベース最適化の効率を阻害する。
各アテンションヘッド内に条件付け行列を追加することで、アテンション行列の条件数を低減する「前処理付きアテンション（preconditioned attention）」を提案する。
提案する条件付けは行列の条件付けを改善することが理論的結果として示されており、最適化をより有効にすることが期待される。
前処理付きアテンションは、文献中の多くの既存アテンション変種に対するシンプルなドロップイン置換として設計されている。
画像（分類、検出、セグメンテーション）、長い系列のモデリング、言語モデリングなど、複数のタスクにまたがる実験により、本手法が学習の効率と有効性を向上させることが検証される。

Abstract

トランスフォーマーの成功の中心にあるのはアテンション・ブロックであり、データセットに関連づけられた入力トークン間のグローバルな依存関係を効果的にモデル化します。しかし我々は理論的に、トランスフォーマーにおける標準的なアテンション機構はしばしば、条件数が大きい不良設定（ill-conditioned）な行列を生成することを示します。この不良設定は、勾配ベースの最適化器にとって周知の障害であり、学習の効率を低下させます。そこでこの問題に対処するために、各アテンションヘッドに条件付け行列を組み込む、新しい手法である前処理（preconditioned）付きアテンションを導入します。我々の理論解析によれば、この手法はアテンション行列の条件数を大幅に低減し、その結果、条件がより良好な行列となって最適化を改善します。条件付けされたアテンションは、文献中の幅広い種類のアテンション機構に対する単純な「差し替え（drop-in replacement）」として機能します。我々は、画像分類、物体検出、インスタンスセグメンテーション、長系列のモデリング、言語モデリングを含む、多様なトランスフォーマー応用において、前処理付きアテンションの有効性を検証します。