言語トランスフォーマにおける異方性を再考する:学習ダイナミクスの幾何
arXiv cs.CL / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Transformerベースの言語モデルにおける異方性を再検討し、それが学習ダイナミクスの幾何学的な解釈を複雑にすると論じる。
- 周波数にバイアスしたサンプリングが「曲率の可視性」をどのように低下させ、学習がなぜ接線方向を増幅しがちなのかについて、幾何学的な説明を与える。
- 著者らは、訓練中に概念ベースのメカニスティック解釈可能性を用いる経験的手法を導入し、活性から導出した低ランクの接線プロクシを当てはめる。
- 活性から得られた接線方向を、標準のバックプロパゲーションによる真の勾配と照合し、これらが不釣り合いに大きな勾配エネルギーと、勾配の異方性のより大きな割合を捉えていることを示す。
- エンコーダ型およびデコーダ型の両方の言語モデルに対して結果を報告し、異方性を「接線に整列した」説明で支持する。



