要旨: トランスフォーマー、拡散マップ、そして磁気ラプラシアンは、通常それぞれ別個の道具として扱われます。本稿では、それらが、プリソフトマックスのクエリスコアから構築される単一のマルコフ幾何の異なるレジーム(状況・相)であることを示します。指数化され正規化された形が注意(attention)、拡散マップ、そして磁気拡散を与える、QKの「双方向ダイバージェンス(bidivergence)」を定義します。そして、専門家の積(product of experts)とシュレディンガーブリッジ(Schr"odinger-bridges)を用いて、それらをつなぎ、平衡、非平衡定常状態、そして駆動されたダイナミクスへと整理します。
拡散とアテンションのつながり
arXiv cs.LG / 2026/4/14
📰 ニュース
要点
- 本論文は、トランスフォーマー、拡散マップ、そして磁気ラプラシアンは別々の枠組みではなく、プリソフトマックスのクエリスコアから構築される統一的なマルコフ幾何の異なるレジームであると主張している。