Exclusive Self Attention（排他的自己注意）

Apple Machine Learning Journal / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この記事では、Exclusive Self Attention（XSA）という新しいTransformerの注意（attention）バリアントを提案し、標準的な自己注意（SA）を修正することでシーケンスモデリング性能を向上させます。
XSAは、トークン自身の値ベクトルに対して直交する情報に注意を制約することで、自己位置情報を除外しつつ文脈（コンテキスト）モデリングを強化することを狙っています。
標準的な言語モデリングに関する実験では、モデルサイズが最大27億パラメータまでの範囲で、XSAが一貫してSAを上回ることが示されています。
報告されている性能向上は、より長いシーケンス長で大きくなっており、XSAが特に長い文脈（ロングコンテキスト）設定で有益であることを示唆しています。

排他的自己注意（XSA）を導入します。これは自己注意（SA）への単純な修正であり、Transformerの系列モデリング性能を向上させます。重要なアイデアは、注意を制約して、トークン自身の値ベクトルに直交する情報のみを捉えることです（したがって自己位置に関する情報を除外します）。これにより、より良い文脈モデリングが促されます。標準的な言語モデリング課題で評価したところ、XSAは2.7Bパラメータまでのモデルサイズすべてにおいて一貫してSAを上回り、系列長が増えるにつれて、得られる改善がますます大きくなることが示されました。

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

Exclusive Self Attention（排他的自己注意）

要点

関連記事

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer