深層トランスフォーマー・モデルにおけるノイズによる同期と確率的スケーリング極限

arXiv stat.ML / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、確率的スケーリングのもとで、MLPブロックを備えた有限のトランスフォーマーにおける層ごとのトークン動力学が、連続時間の確率的相互作用粒子系へ(経路ごとに)収束することを示します。
  • 限界モデルにおいてトークン分布の進化を記述する、特定の確率偏微分方程式(SPDE)を導出しています。
  • 著者らは伝播する混沌(propagation of chaos)を証明し、トークン数が大きいほど、トークンが独立に近づきつつ同じ極限法則に従うことを明らかにします。
  • 限界確率モデルにおいて「ノイズによる同期」が起きること、すなわち共通ノイズが決定的な自己注意(self-attention)のドリフトに比べ十分に強い場合、相互作用エネルギーが平均として指数関数的に減衰することを示します。
  • さらに、上記の強い条件(coercivity)を満たす活性化関数の特徴付けも行っています。

Abstract

有限の深さかつ有限の幅を持つTransformerモデル(MultiLayer Perceptron (MLP)ブロック付き)における、トークンの階層ごとの(layerwise)進化の経路ごとの収束を、連続時間の確率的な相互作用粒子系への収束として証明する。さらに、この極限においてトークンの分布の進化を記述する確率偏微分方程式を特定し、そのようなトークン数が大きいときに混沌(chaos)の伝播が成り立つことを証明する。確立する評価(bounds)は定量的であり、考察する極限は可換である。加えて、極限の確率モデルがノイズによる同期を示すこと、ならびに共通ノイズが決定論的な自己注意ドリフトに対して十分に強制的(coercive)であることを条件として、相互作用エネルギーが平均の意味で指数関数的に散逸することを証明する。最後に、前述の条件を満たす活性化関数を特徴付ける。