変換器の表現力：熱帯幾何学の視点から

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、トランスフォーマーが空間をどのように分割するかを定量化するために、熱帯幾何学（トロピカル・ジオメトリ）の枠組みを提案し、自注意をベクトル値の熱帯有理写像としてモデル化します。
自注意の評価はゼロ温度極限で厳密に「Power Voronoi Diagram」に一致することを証明し、トランスフォーマーの表現力を具体的な幾何学対象と結び付けています。
この等価性に基づき、MHSA（Multi-Head Self-Attention）の働きを組合せ論的に説明し、多頭集約がニュートン多面体のミンコフスキー和によって多面体の複雑さを増やし、単一ヘッドのボトルネックを乗り越えることを示します。
深い（多層）トランスフォーマーでは、線形領域数に関する初めてのタイトな漸近的上界・下界を導出し、Θ(N^{d_model L}) の増加を示すことで、増大が系列長N、埋め込み次元 d_model、そして深さLに本質的に起因することを明らかにしています。
さらに、有限温度のソフト注意でもトポロジカルな分割（多面体の骨格）が幾何学的に安定に保たれることを、指数的にタイトな微分近似の境界により保証します。