Transformerにおける文脈的関係の表現力について

arXiv cs.LG / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Transformerが文脈的関係を経験的にうまく捉える一方で、その表現力が数学的に十分には特徴づけられていないことを主張する。
テキストを意味埋め込み空間上の確率測度として扱い、文脈的関係を結合（カップリング）測度によって表現する、測度論的枠組みを提案する。
著者らは、この結合測度の設定のためのトランスフォーマー風アーキテクチャである「Sinkhorn Transformer」を導入する。
主な貢献は、確率測度間の連続な結合関数が、適切なパラメータを用いたSinkhorn Transformerによって一様に近似可能であることを示す普遍近似定理である。

Abstract

Transformer アーキテクチャは、自然言語における文脈的な関係をモデリングするうえで目覚ましい経験的成功を収めてきましたが、その表現力に対する正確な数学的特徴づけはいまだ不完全です。本研究では、文脈表現に対する測度論的フレームワークを導入します。このフレームワークでは、テキストを意味埋め込み空間上の確率測度としてモデル化し、単語間の文脈関係をそれらの間の結合測度（カップリング測度）として表現します。これに基づき、Transformer のようなアーキテクチャである Sinkhorn Transformer を導入します。本研究の主要な結果は普遍近似定理です。すなわち、確率測度の間の連続な結合関数であって、意味関係の結合測度を符号化する任意のものは、適切なパラメータを備えた Sinkhorn Transformer によって一様に近似可能です。