変換器(Transformer)に潜む幾何学的安定性を予測する「隠れた比率」を見つけた [R]

Reddit r/MachineLearning / 2026/5/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この記事は、デコーダ型Transformerモデルに対するリヤプノフ(Lyapunov)スペクトル解析の結果として、MLPとアテンションのスペクトルノルムの比が、最終層までにランク1へ崩壊するかどうかを予測できると報告している。
  • 幾何学的安定性を最も良く保つには、このスペクトル比をおおむね0.5〜2の範囲に維持するのがよいと主張している。
  • この発見は、Transformerデコーダの表現が安定する学習ダイナミクスへ導くための経験則(目安)として提示されている。
  • 分析の確認・再現用としてGitHubリポジトリ(https://github.com/yousef-rafat/the-1-1-rule)が提供されている。

Lyapunovスペクトル解析を用いていくつかのデコーダー・トランスフォーマー・モデルを分析したところ、MLPとアテンションのスペクトルノルムの比率が、最終層に至るまでにモデルが最終的にランク1へ崩壊するかどうかを強く示していることがわかりました。

スペクトル比は、最終層までモデルを安定に保つために、0.5〜2程度に維持するのが最も良いことを見いだしました。

Githubリポジトリ: https://github.com/yousef-rafat/the-1-1-rule

によって投稿されました /u/Otaku_7nfy
[リンク] [コメント]