ALiBiトランスフォーマーにおける崩壊したアテンションヘッドの外科的修復

arXiv cs.CL / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は、ALiBi位置エンコーディングを用いたBLOOMファミリーのトランスフォーマー言語モデルにおいて、31~44%のアテンションヘッドがほぼ完全にシーケンス開始トークンに集中するという系統的なアテンション崩壊を特定している。
  • このアテンション崩壊は、異なるモデル規模(5.6億から71億パラメータ)にわたって一貫して現れ、ALiBiのスロープスケジュールによる急峻な距離ペナルティと関連している。
  • 著者らは、対象を絞ったQ/K/Vの再初期化と他のパラメータを勾配マスクにより凍結する外科的再初期化手法を提案し、単一のコンシューマGPUでBLOOM-1b7の稼働可能なアテンションヘッドの98.7%を復元した。
  • 実験により、再初期化が回復の主因であり、学習データの内容ではないことが示され、早期の機能的再分配による改善とノイズの多い学習下での遅発的な局所劣化という二つの異なる術後現象が明らかになった。
  • ほぼ健康なヘッドも再初期化すると、一時的に訓練パープレキシティで元のモデルを25%上回る成果を見せており、事前学習済みのアテンション構成が局所的に最適とは限らない可能性を示唆している。本研究はオープンソースのコードおよびツールによって支えられている。

コンピュータサイエンス > 計算と言語

arXiv:2603.09616 (cs)
[2026年3月10日投稿]

題目:ALiBi Transformersにおける崩壊した注意ヘッドの外科的修復

Palmer Schallon による「ALiBi Transformersにおける崩壊した注意ヘッドの外科的修復」という題目の論文のPDFを表示
PDFを表示 HTML(実験的)
要旨:我々は、トランスフォーマ言語モデルのBLOOMファミリーにおいて、ALiBiの位置エンコーディングにより31-44%の注意ヘッドが系列先頭トークン(beginning-of-sequence token)にほぼ全面的に注意を向ける、体系的な注意崩壊の病理を特定する。崩壊は、4つのモデルスケール(560Mから7.1Bパラメータ)にわたり予測可能なパターンに従い、ALiBiのスロープスケジュールが最も急な距離ペナルティを課すヘッド指標に集中する。我々は「外科的再初期化」を導入する。すなわち、出力射影をゼロにした上でのQ/K/Vの対象的な再初期化と、外科的に行うパラメータ以外の全パラメータに対する勾配マスクによる凍結である。単一のコンシューマーGPU上でBLOOM-1b7に適用すると、この手法により2パスで運用可能な注意ヘッド容量が98.7%回復する(384ヘッド中242から379)。C4の学習データとの統制比較により、回復はコーパス内容ではなく再初期化によって駆動されることが確認され、さらに外科的処置後に2種類の異なる現象が明らかになる。すなわち、モデルを改善する早期の大域的機能再配置と、ノイズのある学習信号のもとで蓄積する後期の局所的劣化である。拡張実験として、主に健全なヘッドを崩壊したヘッドと並行して再初期化すると、訓練時のパープレキシティにおいて、既製のBLOOM-1b7より一時的に25%上回るモデルが得られる(12.70対16.99)。これは、事前学習された注意の構成が局所的な最適解として必ずしも良好ではないことを示唆する。コード、チェックポイント、診断ツールはオープンソースソフトウェアとして公開する。
コメント:
分野: 計算と言語(cs.CL)
引用: arXiv:2603.09616 [cs.CL]
  (または arXiv:2603.09616v1 [cs.CL] この版の場合)
  https://doi.org/10.48550/arXiv.2603.09616
さらに詳しく学ぶためにフォーカス
DataCite 経由の arXiv 発行 DOI

投稿履歴

投稿者: Jason Schallon [メールを表示]
[v1] 2026年3月10日(火)12:57:49 UTC(1,258 KB)
フルテキストへのリンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.CL
次の閲覧に変更:
cs
BibTeX形式の引用をエクスポート 読み込み中...

BibTeX形式の引用

×
データ提供元:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
Bibliographic Explorer (エクスプローラーとは?)
Connected Papers切り替え
Connected Papers (Connected Papersとは?)
Litmaps切り替え
Litmaps (Litmapsとは?)
scite.ai切り替え
scite Smart Citations (Smart Citationsとは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv切り替え
alphaXiv (alphaXivとは?)
コードへのリンク切り替え
論文向けCatalyzeX Code Finder (CatalyzeXとは?)
DagsHub切り替え
DagsHub (DagsHubとは?)
GotitPub トグル
Huggingface トグル
コードへのリンク トグル
ScienceCast トグル
デモ

デモ

Replicate トグル
Spaces トグル
Hugging Face Spaces (Spaces とは何ですか?)
Spaces トグル
関連論文

レコメンダーおよび検索ツール

Influence Flower へのリンク
Core レコメンダー トグル
CORE レコメンダー (CORE とは何ですか?)
arXivLabsについて

arXivLabs:コミュニティの共同協力者による実験的プロジェクト

arXivLabsは、共同協力者が当社のウェブサイト上で直接新しいarXivの機能を開発し、共有できるようにするためのフレームワークです。

arXivLabsに取り組み、連携する個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてこれらを重視してきました。arXivはこれらの価値観を掲げ、それらを遵守するパートナーにのみ協力します。

arXivのコミュニティにとって価値のあるプロジェクトのアイデアはありますか? arXivLabsについて詳しく知る