ソフトマックス・トランスフォーマーにおける注意シンクは証明可能に必要である―トリガー条件付きタスクからの証拠
arXiv cs.LG / 2026/3/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トリガー条件付きの挙動を計算することが、確率の単体上の正規化のためにソフトマックス自己注意に必然的なシンクを生じさせることを証明し、注意がデフォルト状態を実現するために安定したアンカーへ収束する理由を形式化します。
- 具体的なタスクとして、指定されたトリガートークンが現れたとき、モデルはそれ以前の全ての前のトークン表現の平均を返し、そうでない場合は0を出力する、野生のアテンションヘッドの機能を反映したタスクです(Barbero et al., 2025; Guo et al., 2024)。
- 著者らは、非正規化のReLU注意が同じタスクをシンクなしで解くことができることを示しており、正規化がシンク挙動の根本的な推進力であることを確認します。
- 実験は、ソフトマックスモデルが単一ヘッドおよびマルチヘッドのいずれでも強いシンクを形成する一方、ReLUアテンションはそれを排除することを示し、これらの知見は理論的に分析された設定を超えて拡張されます。
トランスフォーマーはしばしば注意シンクを示す:確率質量が固定された、内容に依存しない位置に集中する。私たちは、単純なトリガー条件付きの挙動を計算することが、ソフトマックス自己注意モデルに必然的なシンクを生じさせることを証明する。私たちの結果はお馴染みの直感を形式化する:確率の単体上の正規化は、デフォルト状態を実現するために注意を安定したアンカーへと崩壊させることを強制しなければならない(例:モデルが入力を無視する必要がある場合)。これを具体的なタスクで具現化する:指定されたトリガートークンが現れたとき、モデルはこれまでのすべての前のトークン表現の平均を返し、そうでない場合は0を出力する、野生のアテンションヘッドの機能を反映したタスクである(Barbero et al., 2025; Guo et al., 2024)。また、非正規化のReLUアテンションは同じタスクをシンクなしに解くことができ、正規化制約がシンク挙動の根本的な推進力であることを確認する。実験は私たちの予測を検証し、理論的に分析された設定を超えて拡張することを示している:ソフトマックスモデルは強いシンクを発展させる一方、ReLUアテンションはそれを排除する。単一ヘッドおよびマルチヘッドの両方の変種においてもそうである。