Lyapunovスペクトル解析を用いていくつかのデコーダー・トランスフォーマー・モデルを分析したところ、MLPとアテンションのスペクトルノルムの比率が、最終層に至るまでにモデルが最終的にランク1へ崩壊するかどうかを強く示していることがわかりました。
スペクトル比は、最終層までモデルを安定に保つために、0.5〜2程度に維持するのが最も良いことを見いだしました。
Githubリポジトリ: https://github.com/yousef-rafat/the-1-1-rule
[リンク] [コメント]




