要旨: 乗法的ゲーティングはニューラルアーキテクチャで広く用いられており、大規模言語モデルにおける性能と学習の安定性を改善するために、近年では注意層にも適用されている。ゲート付き注意の成功にもかかわらず、ゲート付き注意メカニズムの数学的含意は十分に理解されていない。私たちは、出力をガウス分布の平均パラメータとしてモデル化し、誘導されるフィッシャー・ラオ幾何を解析することで、表現の幾何によって注意を研究する。ゲートなし注意演算子は、そのアフィン構造によって固有に平坦な統計マニフォールドに制限される一方、乗法的ゲーティングは非平坦な幾何、すなわちゲートなし設定では到達不可能な正の曲率をもつマニフォールドを含むものを可能にすることを示す。これらの結果は、ゲートなし注意とゲート付き注意の間に、幾何学的な表現力のギャップが存在することを確立する。実験的に、ゲート付きモデルは、表現の曲率が高く、非線形の決定境界を要する課題で性能が向上することを示す。これに対し、線形の決定境界をもつ課題では一貫した優位性は示されない。さらに、曲率が合成の過程で蓄積される構造化された領域を同定し、その結果として系統的な深さ増幅(depth amplification)効果が生じることを明らかにする。
ゲーティングは曲率を可能にする:注意における幾何学的表現力ギャップ
arXiv cs.LG / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、注意の出力をガウス分布の平均パラメータとしてモデル化し、誘導されるフィッシャー・ラオ幾何を調べることで、ゲーティング付き注意の幾何学的性質を解析します。
- それにより、アフィン構造をもつゲーティングなしの注意は固有にフラットな統計マニフォールドに制限される一方、乗算的ゲーティングは非フラットな幾何(到達不能だった正の曲率を含む)を実現できることを示します。
- 著者らは、ゲーティング付き注意とゲーティングなし注意の間に「幾何学的表現力ギャップ」が存在し、ゲーティング付き注意がより高い表現幾何を持つことを定式化します。
- 実験では、この幾何学が振る舞いに結びつくことが確認され、ゲーティング付きモデルは表現の曲率が高く、非線形な意思決定境界を必要とするタスクで性能が向上する一方、線形境界のタスクでは一貫した優位性が見られません。
- さらに、曲率が合成(composition)により蓄積される構造化された領域を特定し、深さが効く「depth amplification effect(深さ増幅効果)」が系統的に生じることを報告しています。



