Ordinary Least Squares is a Special Case of Transformer
arXiv cs.LG / 4/16/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 本論文は、Transformerの本質を「普遍近似器」ではなく「既知の計算アルゴリズムのニューラル版」と捉えるため、OLSが単層の線形Transformerの特別な場合に相当することを代数的に証明した。
- 実データの共分散行列のスペクトル分解を用いて、注意機構の順伝播がOLSの閉形式(射影)と数学的に同値になる具体的パラメータ設定を構成している。
Related Articles

Introducing Claude Opus 4.7
Anthropic News

Who Audits the Auditors? Building an LLM-as-a-Judge for Agentic Reliability
Dev.to

"Enterprise AI Cost Optimization: How Companies Are Cutting AI Infrastructure Sp
Dev.to

Config-first code generator to replace repetitive AI boilerplate — looking for feedback and collaborators
Dev.to

The US Government Fired 40% of an Agency, Then Asked AI to Do Their Jobs
Dev.to