要約: 最近の代数的解析は、デコーダー専用およびエンコーダー専用のトランスフォーマーにおいて、クエリ投影 W_Q を恒等行列に設定しても、顕著な性能低下は生じないことを示している。これは、アテンションが X が XW_Q, XW_K, XW_V の積を通じてのみ依存するためであり、基底変換を隣接する層に吸収させ、ネットワーク全体に伝搬させることを可能にする。私たちは、W_Q \in \mathbb{R}^{d \times d} を、Q(X) = X + f_\theta(X) の形の非線形残差で置換する。ここで f_\theta は d^2 + O(d) 個のパラメータを持つボトルネック MLP である。恒等項は、非線形性を既知の良好な事前知識に固定する。GPT-3小型スタイルのモデルでの実験は、ベースラインに対して一貫した改善を示し、非埋め込みパラメータが12.5%多いモデルを楽に上回った。これらの結果は、より大規模な規模とモダリティを横断した調査を促す。
アテンション投影における線形性を超えて: 非線形クエリの提案
arXiv cs.LG / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 新しい論文は、エンコーダ専用およびデコーダ専用のトランスフォーマーにおけるクエリ射影 W_Q を、非線形残差 Q(X) = X + f_theta(X) に置換することを提案する。ここで f_theta はボトルネックMLPである。
- この手法は、アテンションが X が XW_Q、XW_K、XW_V の積を通じてのみ依存するという事実を活用し、非線形性を恒等項で固定し、隣接する層に吸収されるようにする。
- GPT-3 小型スタイルのモデルでの実験は、ベースラインを一貫して上回り、非埋め込みパラメータを12.5%多く持つモデルをも上回る結果を示している。
- 著者らは、このアプローチをより大規模なモデルやクロスモーダル設定にスケールさせ、より広い恩恵を評価すべきだと主張している。