勾配方向の感度は、オプティマイザ軌跡により隠された線形セントロイド結合を明らかにする
arXiv cs.LG / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、通常の「最適化更新へのSVD」を使う診断が、SED方向とLinear Centroid Hypothesis(LCH)特徴の関係を見えにくくしてしまうことを示し、損失勾配に対してSVDを行うと測定される結合が1〜2桁変わることを明らかにした。
- AdamW更新ではなく損失勾配に対してSVDを適用すると、SED方向とLCH特徴の摂動的結合は大きく増加(約3〜9×から100〜330×へ)し、操作タイプ依存の見かけが主に解消される。
- 共通エンコーダを持つマルチタスク・トランスフォーマでは、更新ベースのSEDが診断の失敗(結合≤1×)を示すことがある一方、各操作ごとの勾配ベースSEDにより、4つの操作すべてで強い結合(約20〜45×)が回復する。
- 著者らは因果介入により、注意(attention)更新をランク3の部分空間に制限するとgrokkingが約2.3倍加速することを示し、提案する勾配射影の手法のもとではランク3成分を除去しても効果が小さいことを報告している。
- 総合すると、SED–LCH結合はパラメータ空間で特徴形成が集中する場所を示す強力な診断として裏付けられるが、因果の唯一の経路ではない。なぜなら、調査したハイパーパラメータ条件下ではAdamWの注意更新が高いランク冗長性を持つためである。


