Homogenized Transformers
arXiv stat.ML / 4/3/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 論文は、層とヘッドごとに重みが独立に再サンプルされる「初期化に近い」ランダムな深いマルチヘッド自己注意モデルを定式化し、深さを時間変数として残差ストリームの力学を粒子系として解釈します。
- 深さ・残差ステップサイズ・ヘッド数に対する適切な同時スケーリングのもとで、残差ストリームのダイナミクスが非自明な同質化(homogenized)極限を持つことを証明し、その極限がスケーリングにより決定的または共通ノイズを伴う確率的になると示します。
- 平均場レジームでは、共通ノイズがトークンの条件付き分布に対して確率的な非線形Fokker–Planck方程式を導くことを示し、Gaussian設定ではドリフトが消えるため同質化ダイナミクスを明示的に扱えると述べています。
- これにより表現崩壊(representation collapse)を解析し、次元・文脈長・温度の間の定量的なトレードオフや、クラスタリング(特定の表現への過度な集約)を緩和できるレジームを特定します。
Related Articles

90000 Tech Workers Got Fired This Year and Everyone Is Blaming AI but Thats Not the Whole Story
Dev.to

Microsoft’s $10 Billion Japan Bet Shows the Next AI Battleground Is National Infrastructure
Dev.to

TII Releases Falcon Perception: A 0.6B-Parameter Early-Fusion Transformer for Open-Vocabulary Grounding and Segmentation from Natural Language Prompts
MarkTechPost

The house asked me a question
Dev.to

Precision Clip Selection: How AI Suggests Your In and Out Points
Dev.to