深層トランスフォーマー・モデルにおけるノイズによる同期と確率的スケーリング極限
arXiv stat.ML / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、確率的スケーリングのもとで、MLPブロックを備えた有限のトランスフォーマーにおける層ごとのトークン動力学が、連続時間の確率的相互作用粒子系へ(経路ごとに)収束することを示します。
- 限界モデルにおいてトークン分布の進化を記述する、特定の確率偏微分方程式(SPDE)を導出しています。
- 著者らは伝播する混沌(propagation of chaos)を証明し、トークン数が大きいほど、トークンが独立に近づきつつ同じ極限法則に従うことを明らかにします。
- 限界確率モデルにおいて「ノイズによる同期」が起きること、すなわち共通ノイズが決定的な自己注意(self-attention)のドリフトに比べ十分に強い場合、相互作用エネルギーが平均として指数関数的に減衰することを示します。
- さらに、上記の強い条件(coercivity)を満たす活性化関数の特徴付けも行っています。




