アテンション・シンクは勾配シンクを誘発する

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は因果マスキング下の逆伝播を分析することにより、Transformerモデルにおけるアテンション・シンクと勾配シンクを調査する。
アテンション・シンクは顕著な勾配集中を引き起こすことがあり、著者らはこれを勾配シンクと呼ぶ。
事前正規化（Pre-Norm）を採用したアーキテクチャでは、局所的な勾配圧力に対する適応的な反応として巨大な活性化が生じることがある。
彼らは値の経路の逆伝播勾配を調整する改良手法としてV-scaleを導入し、事前学習済みのV-scaleモデルはアテンション・シンクを保持しつつ巨大な活性化を抑制することを示した。
結果は、勾配シンクがアテンション・シンクと巨大な活性化を結ぶトレーニング時の主要な媒介因子であることを支持する。

要旨: アテンション・シンクと巨大な活性化は、トランスフォーマーモデルにおいて繰り返し現れ、密接に関連する現象です。
既存の研究は主にフォワードパスに焦点を当てており、それらの結びつきが直接的なものであるのか、訓練時のメカニズムによって媒介されているのかは不明です。
この問いを誤差逆伝播の観点から検討します。
経験的にも理論的にも、因果マスクの下では、アテンション・シンクが顕著な勾配集中を誘発し、それを「勾配シンク」と呼ぶことを示します。
さらに、RMSNormを用いた前正規化（pre-norm）アーキテクチャでは、巨量の活性化は訓練中のこの局所的な勾配圧力に対する適応的な応答として理解できる。
この仮説を検証するために、値パスに逆伝播する勾配を調整する修正であるV-scaleを導入します。
事前学習済みのV-scaleモデルでは、アテンション・シンクは保持される一方で、巨大な活性化は抑制されます。
これらの結果は、勾配シンクがアテンション・シンクと巨大な活性化を結ぶ重要な訓練時の媒介者であるという解釈を支持します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

アテンション・シンクは勾配シンクを誘発する

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer