ゲーティングは曲率を可能にする：注意における幾何学的表現力ギャップ

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、注意の出力をガウス分布の平均パラメータとしてモデル化し、誘導されるフィッシャー・ラオ幾何を調べることで、ゲーティング付き注意の幾何学的性質を解析します。
それにより、アフィン構造をもつゲーティングなしの注意は固有にフラットな統計マニフォールドに制限される一方、乗算的ゲーティングは非フラットな幾何（到達不能だった正の曲率を含む）を実現できることを示します。
著者らは、ゲーティング付き注意とゲーティングなし注意の間に「幾何学的表現力ギャップ」が存在し、ゲーティング付き注意がより高い表現幾何を持つことを定式化します。
実験では、この幾何学が振る舞いに結びつくことが確認され、ゲーティング付きモデルは表現の曲率が高く、非線形な意思決定境界を必要とするタスクで性能が向上する一方、線形境界のタスクでは一貫した優位性が見られません。
さらに、曲率が合成（composition）により蓄積される構造化された領域を特定し、深さが効く「depth amplification effect（深さ増幅効果）」が系統的に生じることを報告しています。

要旨: 乗法的ゲーティングはニューラルアーキテクチャで広く用いられており、大規模言語モデルにおける性能と学習の安定性を改善するために、近年では注意層にも適用されている。ゲート付き注意の成功にもかかわらず、ゲート付き注意メカニズムの数学的含意は十分に理解されていない。私たちは、出力をガウス分布の平均パラメータとしてモデル化し、誘導されるフィッシャー・ラオ幾何を解析することで、表現の幾何によって注意を研究する。ゲートなし注意演算子は、そのアフィン構造によって固有に平坦な統計マニフォールドに制限される一方、乗法的ゲーティングは非平坦な幾何、すなわちゲートなし設定では到達不可能な正の曲率をもつマニフォールドを含むものを可能にすることを示す。これらの結果は、ゲートなし注意とゲート付き注意の間に、幾何学的な表現力のギャップが存在することを確立する。実験的に、ゲート付きモデルは、表現の曲率が高く、非線形の決定境界を要する課題で性能が向上することを示す。これに対し、線形の決定境界をもつ課題では一貫した優位性は示されない。さらに、曲率が合成の過程で蓄積される構造化された領域を同定し、その結果として系統的な深さ増幅（depth amplification）効果が生じることを明らかにする。