同質化（Homogenized）Transformer

arXiv stat.ML / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、層とヘッドごとに重みが独立に再サンプルされる「初期化に近い」ランダムな深いマルチヘッド自己注意モデルを定式化し、深さを時間変数として残差ストリームの力学を粒子系として解釈します。
深さ・残差ステップサイズ・ヘッド数に対する適切な同時スケーリングのもとで、残差ストリームのダイナミクスが非自明な同質化（homogenized）極限を持つことを証明し、その極限がスケーリングにより決定的または共通ノイズを伴う確率的になると示します。
平均場レジームでは、共通ノイズがトークンの条件付き分布に対して確率的な非線形Fokker–Planck方程式を導くことを示し、Gaussian設定ではドリフトが消えるため同質化ダイナミクスを明示的に扱えると述べています。
これにより表現崩壊（representation collapse）を解析し、次元・文脈長・温度の間の定量的なトレードオフや、クラスタリング（特定の表現への過度な集約）を緩和できるレジームを特定します。

Abstract

本稿では、重みが学習開始時の初期化のように、層とヘッドごとに独立に再サンプリングされる、深いマルチヘッド自己注意のランダムモデルを研究する。深さを時間変数として見なすと、残差ストリームは単位球面上の離散時間の相互作用する粒子系を定める。適切な深さ、残差ステップサイズ、ヘッド数の同時スケーリングのもとで、このダイナミクスが自明でないホモジナイズ（平均化）極限を持つことを証明する。スケーリングに応じて、極限は決定論的であるか、あるいは共通ノイズを伴う確率論的なものになる。平均場（mean-field）レジームでは、後者は代表トークンの条件付き分布に対する確率的な非線形フォッカー–プランク方程式を導く。ガウス設定では、極限のドリフトが消失するため、ホモジナイズされたダイナミクスが表現崩壊（representation collapse）を研究するのに十分明示的になる。これにより、次元、文脈長、温度の間の定量的なトレードオフが得られ、クラスタリングが緩和され得るレジームが特定される。