概要: Transformer(トランスフォーマー)は、言語モデリングにおいて最も人気のあるニューラルアーキテクチャです。トランスフォーマーの礎となるのは、グローバル注意機構(global attention)であり、これによりモデルは、次のトークンを生成する前に、それ以前のすべてのトークンから情報を集約できます。注意機構のよくある変種の1つにローカル注意(local attention)があります。これは、各トークンが参照できる先行トークンの範囲を、ある上限のあるウィンドウに制限することで、グローバル注意の二次的な計算コストを線形に抑えるものです。この制限は通常、効率性によって動機づけられていますが、同時にモデル品質の向上ももたらすことが分かっており、この現象についてはこれまで満足のいく説明が欠けていました。私たちは、認識器の表現力(recognizer expressivity)の観点から、この現象を形式的に説明します。グローバル注意を備えた固定精度のトランスフォーマーは、単一の過去(past)演算子を含む線形時間論理(linear temporal logic)のある断片に対応することが示されています。さらに、ローカル注意を追加すると第二の時間演算子が導入され、認識可能な正則言語のクラスが厳密に拡大されることを証明します。また、グローバル注意とローカル注意は表現力において補完的です。つまり、どちらも他方を包含せず、両者を組み合わせることで最も豊かな断片が得られます。形式言語認識および自然言語モデリングに関する実験は、この理論を裏づけており、ハイブリッドなグローバル—ローカルトランスフォーマーは、グローバルのみの対応モデルを上回ることが示されています。
トランスフォーマーにおける局所アテンションの表現力の特徴づけ
arXiv cs.CL / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、効率化を主目的として導入されるはずの局所アテンションが、品質を向上させる理由を説明するために研究する。
- 著者らは「認識器の表現力(recognizer expressivity)」という枠組みに基づき、固定精度のグローバル・アテンション型トランスフォーマーが、過去の演算子1つを含む線形時間論理の一部に対応することを示す。
- 局所アテンションを加えると2つ目の時間演算子が導入され、その結果としてモデルが認識できる正則言語のクラスが厳密に拡大することを証明する。
- グローバル・アテンションと局所アテンションは表現力の点で補完的であり、どちらも一方を包含せず、両者を組み合わせることで最も豊かな表現力が得られることを明らかにする。
- 正則言語認識と自然言語モデリングの実験により、グローバル・ローカルのハイブリッド型トランスフォーマーがグローバルのみのモデルを上回ることが実証される。



