AI Navigate

バックプロパゲーションで迷子になる: LMヘッドは勾配のボトルネック

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LMヘッドの V 次元勾配がランク-Dの線形層を通じて逆伝播され、避けられない圧縮を引き起こし、ほとんどのパラメータを訓練する際のフィードバックを変えてしまう。
  • 著者らは、勾配ノルムの95-99%が出力層によって抑制されることを定量化し、不適切な更新方向につながる。
  • ソフトマックスのボトルネックは、表現力のボトルネックであるだけでなく、最適化のボトルネックでもあることを示している。
  • 制御された事前学習実験は、勾配ボトルネックが些細なパターンを学習不能にし、LLMsの訓練ダイナミクスを大幅に変えることを示す。
  • この固有の欠陥は、モデルアーキテクチャに依存せずスケールでの訓練の非効率性に寄与しており、新しいLMヘッド設計の必要性を提唱しています。
本文: arXiv:2603.10145v1 発表タイプ: new 要旨: ニューラル言語モデル(LMs)の最終層は、出力特徴を次元 $D$ から語彙のサイズである次元 $V$ のロジットへ射影します。通常 $D \\ll V$。この不一致はニューラルLMにおける表現力の制限リスクを高め、いわゆるソフトマックスボトルネックを生み出すことが知られています。私たちは、ソフトマックスボトルネックは表現力のボトルネックだけでなく、最適化のボトルネックでもあることを示します。$V$ 次元の勾配をランク-$D$ の線形層を通して逆伝播させると、避けられない圧縮が生じ、訓練中のほとんどのパラメータに提供される訓練フィードバックを変えてしまいます。この現象の理論的分析を提示し、経験的に出力層によって勾配ノルムの95-99%が抑制されることを測定し、更新方向が大幅に不適切になることを示します。制御された事前学習実験を実施し、勾配ボトルネックが自明なパターンを学習不能にし、LLMsの訓練ダイナミクスを大幅に変えることを示します。我々は、この固有の欠陥がモデルアーキテクチャに依存せずスケール時の訓練の非効率性に寄与しており、新しいLMヘッド設計の必要性を提唱します。