Exclusive Self Attention(排他的自己注意)
Apple Machine Learning Journal / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この記事では、Exclusive Self Attention(XSA)という新しいTransformerの注意(attention)バリアントを提案し、標準的な自己注意(SA)を修正することでシーケンスモデリング性能を向上させます。
- XSAは、トークン自身の値ベクトルに対して直交する情報に注意を制約することで、自己位置情報を除外しつつ文脈(コンテキスト)モデリングを強化することを狙っています。
- 標準的な言語モデリングに関する実験では、モデルサイズが最大27億パラメータまでの範囲で、XSAが一貫してSAを上回ることが示されています。
- 報告されている性能向上は、より長いシーケンス長で大きくなっており、XSAが特に長い文脈(ロングコンテキスト)設定で有益であることを示唆しています。
排他的自己注意(XSA)を導入します。これは自己注意(SA)への単純な修正であり、Transformerの系列モデリング性能を向上させます。重要なアイデアは、注意を制約して、トークン自身の値ベクトルに直交する情報のみを捉えることです(したがって自己位置に関する情報を除外します)。これにより、より良い文脈モデリングが促されます。標準的な言語モデリング課題で評価したところ、XSAは2.7Bパラメータまでのモデルサイズすべてにおいて一貫してSAを上回り、系列長が増えるにつれて、得られる改善がますます大きくなることが示されました。