変換器の表現力:熱帯幾何学の視点から

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、トランスフォーマーが空間をどのように分割するかを定量化するために、熱帯幾何学(トロピカル・ジオメトリ)の枠組みを提案し、自注意をベクトル値の熱帯有理写像としてモデル化します。
  • 自注意の評価はゼロ温度極限で厳密に「Power Voronoi Diagram」に一致することを証明し、トランスフォーマーの表現力を具体的な幾何学対象と結び付けています。
  • この等価性に基づき、MHSA(Multi-Head Self-Attention)の働きを組合せ論的に説明し、多頭集約がニュートン多面体のミンコフスキー和によって多面体の複雑さを増やし、単一ヘッドのボトルネックを乗り越えることを示します。
  • 深い(多層)トランスフォーマーでは、線形領域数に関する初めてのタイトな漸近的上界・下界を導出し、Θ(N^{d_model L}) の増加を示すことで、増大が系列長N、埋め込み次元 d_model、そして深さLに本質的に起因することを明らかにしています。
  • さらに、有限温度のソフト注意でもトポロジカルな分割(多面体の骨格)が幾何学的に安定に保たれることを、指数的にタイトな微分近似の境界により保証します。