バックプロパゲーションで迷子になる: LMヘッドは勾配のボトルネック

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

LMヘッドの V 次元勾配がランク-Dの線形層を通じて逆伝播され、避けられない圧縮を引き起こし、ほとんどのパラメータを訓練する際のフィードバックを変えてしまう。
著者らは、勾配ノルムの95-99%が出力層によって抑制されることを定量化し、不適切な更新方向につながる。
ソフトマックスのボトルネックは、表現力のボトルネックであるだけでなく、最適化のボトルネックでもあることを示している。
制御された事前学習実験は、勾配ボトルネックが些細なパターンを学習不能にし、LLMsの訓練ダイナミクスを大幅に変えることを示す。
この固有の欠陥は、モデルアーキテクチャに依存せずスケールでの訓練の非効率性に寄与しており、新しいLMヘッド設計の必要性を提唱しています。

本文: arXiv:2603.10145v1 発表タイプ: new 要旨: ニューラル言語モデル（LMs）の最終層は、出力特徴を次元 $D$ から語彙のサイズである次元 $V$ のロジットへ射影します。通常 $D \\ll V$。この不一致はニューラルLMにおける表現力の制限リスクを高め、いわゆるソフトマックスボトルネックを生み出すことが知られています。私たちは、ソフトマックスボトルネックは表現力のボトルネックだけでなく、最適化のボトルネックでもあることを示します。$V$ 次元の勾配をランク-$D$ の線形層を通して逆伝播させると、避けられない圧縮が生じ、訓練中のほとんどのパラメータに提供される訓練フィードバックを変えてしまいます。この現象の理論的分析を提示し、経験的に出力層によって勾配ノルムの95-99%が抑制されることを測定し、更新方向が大幅に不適切になることを示します。制御された事前学習実験を実施し、勾配ボトルネックが自明なパターンを学習不能にし、LLMsの訓練ダイナミクスを大幅に変えることを示します。我々は、この固有の欠陥がモデルアーキテクチャに依存せずスケール時の訓練の非効率性に寄与しており、新しいLMヘッド設計の必要性を提唱します。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

バックプロパゲーションで迷子になる: LMヘッドは勾配のボトルネック

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer