GPT-2におけるアテンション・シンクの機構的説明：抑制へのより広い示唆（1回路、より広い含意）

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、最初のトークン位置に過度に注意を向ける「アテンション・シンク」と呼ばれる挙動を、GPT-2型トランスフォーマーで解析する。
構造解析と因果的介入を組み合わせることで、学習されたクエリ・バイアス、絶対位置エンコーディングを第1層MLPが処理すること、そしてキー投影側の構造の相互作用が主要な要因であると特定する。
結果は自然言語、数学、コードといった多様な入力タイプで検証されており、この現象が頑健であることを示している。
さらに重要な点として、特定した各コンポーネントはそれぞれ単独で除去してもアテンション・シンクが頑健に残ることが示され、アーキテクチャによって異なる回路から生じうることを示唆する。
本研究はアテンション・シンクの抑制策の設計と評価に向けた手がかりを与えるとともに、シンクが現れる理由のより広い調査を後押しする。

要旨: トランスフォーマーは一般に、注目（attention）の「サンク（sink）」を示します。つまり、最初の位置（最初のトークン）への注目が過度に高くなります。私たちは、学習されたクエリバイアスと絶対位置埋め込みを用いるGPT-2スタイルのモデルにおいて、この挙動を調査します。構造解析と因果的介入を組み合わせ、自然言語・数学・コード入力にわたって検証した結果、このサンクは (i) 学習されたクエリバイアス、(ii) 位置エンコーディングの最初の層におけるMLP変換、(iii) キープロジェクションに存在する構造の相互作用によって生じることが分かりました。重要なのは、私たちが特定した各コンポーネントはそれぞれ単独では不要であるという点です。これらのいずれかを省いたアーキテクチャでも、堅牢にサンクが観測されます。これは、注目サンクがアーキテクチャ間で異なる回路（circuits）によって生じ得ることを示唆します。これらの知見はサンクの緩和（mitigation）に役立つとともに、なぜサンクが生まれるのかについて、より広範な調査を動機づけます。