概要: Transformerアーキテクチャの統計的本質は長らく捉えどころがありませんでした。つまり、それはユニバーサル近似器なのか、それとも既知の計算アルゴリズムのニューラルネットワーク版なのか? 厳密な代数的証明によって、後者のほうがTransformerの基本的な性質をよりよく記述していることを示します。通常の最小二乗(OLS)は、単層の線形Transformerの特殊ケースです。経験的共分散行列のスペクトル分解を用いることで、注意機構の順伝播が、数学的にOLSの閉形式による射影と同等になるような特定のパラメータ設定を構成します。これは、反復によらず1回の順伝播で注意がこの問題を解けることを意味します。この原型となる場合を土台にして、Transformer内のデカップリングされた遅いメモリと速いメモリのメカニズムもさらに明らかにします。最後に、確立された線形プロトタイプから標準的なTransformerへの発展について議論します。この進展により、Hopfieldのエネルギー関数が線形から指数的なメモリ容量へ移行することが促進され、それによって現代の深層アーキテクチャと古典的な統計的推論とのあいだに明確な連続性が確立されます。
最小二乗法(OLS)はトランスフォーマーの特殊ケースである
arXiv cs.LG / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Transformerの本質を「普遍近似器」ではなく「既知の計算アルゴリズムのニューラル版」と捉えるため、OLSが単層の線形Transformerの特別な場合に相当することを代数的に証明した。
- 実データの共分散行列のスペクトル分解を用いて、注意機構の順伝播がOLSの閉形式(射影)と数学的に同値になる具体的パラメータ設定を構成している。




