ALiBiトランスフォーマーにおける崩壊したアテンションヘッドの外科的修復

arXiv cs.CL / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、ALiBi位置エンコーディングを用いたBLOOMファミリーのトランスフォーマー言語モデルにおいて、31～44％のアテンションヘッドがほぼ完全にシーケンス開始トークンに集中するという系統的なアテンション崩壊を特定している。
このアテンション崩壊は、異なるモデル規模（5.6億から71億パラメータ）にわたって一貫して現れ、ALiBiのスロープスケジュールによる急峻な距離ペナルティと関連している。
著者らは、対象を絞ったQ/K/Vの再初期化と他のパラメータを勾配マスクにより凍結する外科的再初期化手法を提案し、単一のコンシューマGPUでBLOOM-1b7の稼働可能なアテンションヘッドの98.7％を復元した。
実験により、再初期化が回復の主因であり、学習データの内容ではないことが示され、早期の機能的再分配による改善とノイズの多い学習下での遅発的な局所劣化という二つの異なる術後現象が明らかになった。
ほぼ健康なヘッドも再初期化すると、一時的に訓練パープレキシティで元のモデルを25％上回る成果を見せており、事前学習済みのアテンション構成が局所的に最適とは限らない可能性を示唆している。本研究はオープンソースのコードおよびツールによって支えられている。

コンピュータサイエンス > 計算と言語

arXiv:2603.09616 (cs)

[2026年3月10日投稿]

題目:ALiBi Transformersにおける崩壊した注意ヘッドの外科的修復

著者:Palmer Schallon

Palmer Schallon による「ALiBi Transformersにおける崩壊した注意ヘッドの外科的修復」という題目の論文のPDFを表示

PDFを表示 HTML（実験的）

要旨:我々は、トランスフォーマ言語モデルのBLOOMファミリーにおいて、ALiBiの位置エンコーディングにより31-44%の注意ヘッドが系列先頭トークン（beginning-of-sequence token）にほぼ全面的に注意を向ける、体系的な注意崩壊の病理を特定する。崩壊は、4つのモデルスケール（560Mから7.1Bパラメータ）にわたり予測可能なパターンに従い、ALiBiのスロープスケジュールが最も急な距離ペナルティを課すヘッド指標に集中する。我々は「外科的再初期化」を導入する。すなわち、出力射影をゼロにした上でのQ/K/Vの対象的な再初期化と、外科的に行うパラメータ以外の全パラメータに対する勾配マスクによる凍結である。単一のコンシューマーGPU上でBLOOM-1b7に適用すると、この手法により2パスで運用可能な注意ヘッド容量が98.7%回復する（384ヘッド中242から379）。C4の学習データとの統制比較により、回復はコーパス内容ではなく再初期化によって駆動されることが確認され、さらに外科的処置後に2種類の異なる現象が明らかになる。すなわち、モデルを改善する早期の大域的機能再配置と、ノイズのある学習信号のもとで蓄積する後期の局所的劣化である。拡張実験として、主に健全なヘッドを崩壊したヘッドと並行して再初期化すると、訓練時のパープレキシティにおいて、既製のBLOOM-1b7より一時的に25%上回るモデルが得られる（12.70対16.99）。これは、事前学習された注意の構成が局所的な最適解として必ずしも良好ではないことを示唆する。コード、チェックポイント、診断ツールはオープンソースソフトウェアとして公開する。

コメント:
分野:	計算と言語（cs.CL）
引用:	arXiv:2603.09616 [cs.CL]
	（または arXiv:2603.09616v1 [cs.CL] この版の場合）
	https://doi.org/10.48550/arXiv.2603.09616 さらに詳しく学ぶためにフォーカス DataCite 経由の arXiv 発行 DOI

投稿履歴

投稿者: Jason Schallon [メールを表示]
[v1] 2026年3月10日（火）12:57:49 UTC（1,258 KB）

フルテキストへのリンク:

論文へのアクセス:

Palmer Schallon による「ALiBi Transformersにおける崩壊した注意ヘッドの外科的修復」という題目の論文のPDFを表示

PDFを表示
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.CL

< 前へ | 次へ >

新着 | 最近 | 2026-03

次の閲覧に変更:

参考文献 & 引用

BibTeX形式の引用をエクスポート読み込み中...

BibTeX形式の引用

データ提供元:

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え

Bibliographic Explorer (エクスプローラーとは？)

Connected Papers切り替え

Connected Papers (Connected Papersとは？)

Litmaps切り替え

Litmaps (Litmapsとは？)

scite.ai切り替え

scite Smart Citations (Smart Citationsとは？)

コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv切り替え

alphaXiv (alphaXivとは？)

コードへのリンク切り替え

論文向けCatalyzeX Code Finder (CatalyzeXとは？)

DagsHub切り替え

DagsHub (DagsHubとは？)

GotitPub トグル

Gotit.pub (GotitPub とは何ですか？)

Huggingface トグル

Hugging Face (Huggingface とは何ですか？)

コードへのリンクトグル

Papers with Code (Papers with Code とは何ですか？)

ScienceCast トグル

ScienceCast (ScienceCast とは何ですか？)

デモ

Replicate トグル

Replicate (Replicate とは何ですか？)

Spaces トグル

Hugging Face Spaces (Spaces とは何ですか？)

Spaces トグル

TXYZ.AI (TXYZ.AI とは何ですか？)

レコメンダーおよび検索ツール

Influence Flower へのリンク

Influence Flower (Influence Flower とは何ですか？)

Core レコメンダートグル

CORE レコメンダー (CORE とは何ですか？)

著者
掲載先
所属機関
トピック

arXivLabsについて

arXivLabs：コミュニティの共同協力者による実験的プロジェクト

arXivLabsは、共同協力者が当社のウェブサイト上で直接新しいarXivの機能を開発し、共有できるようにするためのフレームワークです。

arXivLabsに取り組み、連携する個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてこれらを重視してきました。arXivはこれらの価値観を掲げ、それらを遵守するパートナーにのみ協力します。

arXivのコミュニティにとって価値のあるプロジェクトのアイデアはありますか？ arXivLabsについて詳しく知る。

この論文のどの著者が支持者（エンダーサー）ですか？ | MathJaxを無効にする（MathJaxとは何ですか？）

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

ALiBiトランスフォーマーにおける崩壊したアテンションヘッドの外科的修復

要点

コンピュータサイエンス > 計算と言語

題目:ALiBi Transformersにおける崩壊した注意ヘッドの外科的修復

投稿履歴

論文へのアクセス:

参考文献 & 引用

BibTeX形式の引用

ブックマーク

書誌および引用ツール

この記事に関連付けられたコード、データ、メディア

デモ

レコメンダーおよび検索ツール

arXivLabs：コミュニティの共同協力者による実験的プロジェクト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer