要旨: 否定は現代の言語モデルにとって依然として克服が難しい課題であり、しばしば意味の反転や事実誤りを引き起こします。
本研究では、GPT-2 Small がこのような言語変換を内部でどのように処理するかを因果分析で検討します。
層レベルとヘッドレベルの両方で、その内部表現を検査します。
我々の分析は、複数の言語テンプレートと否定の形を網羅する、自己選択で作成した12,000組の肯定文と否定文のデータセットに基づいています。
この挙動を定量化するために、Negation Effect Score(NES)という指標を定義します。これは、肯定文とその否定を区別するモデルの感度を測定します。
因果構造を探るために、2つの重要な介入を実施しました。
活性化パッチングでは、肯定文からの内部活性化を否定文の対応版に挿入し、意味がどのように変化するかを観察しました。
アブレーションでは、特定のアテンションヘッドを一時的に無効化して、論理的極性がどのように変化するかを観察しました。
これらの手順を総合すると、否定信号がGPT-2の層を通じてどのように移動し、どのように進化するかが明らかになりました。
我々の知見は、この能力が広く普及しているものではなく、むしろ中間層の限られた数のアテンションヘッドに高度に集中しており、主に4〜6層に位置します。
これらの特定の成分をアブレーションすることは、モデルの否定感度を直接的に乱すことになります。ドメイン内では、アブレーションによりNESが増加しました(否定感度が弱まることを示します)、キャッシュされた肯定活性化を再導入する(救済)とNESがさらに増加し、これらのヘッドが肯定信号を運ぶことを確認し、基準の挙動を回復させるものではないことを示しています。
xNot360 では、アブレーションはNESをわずかに低下させ、救済はベースラインを上回る性能を回復しました。
このパターンは、これらの因果パターンがさまざまな否定形に跨って一貫しており、外部ベンチマークである xNot360 でも検出可能であることを示していますが、規模は小さくなっています。
GPT-2における否定の解釈: レイヤーとヘッドレベルの因果分析
arXiv cs.CL / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、GPT-2 Small が否定を扱う際の層レベルおよびヘッドレベルの因果分析を行い、肯定文と否定文の自作の12,000ペアデータセットと、否定に対する感度を定量化する Negation Effect Score(NES)を用いる。
- 彼らは、否定信号が層を通じてどのように伝播するかをマッピングするために、アクティベーション・パッチングと特定の注意ヘッドのアブレーションを用い、効果が中間層のヘッドに集中していることを、特に層4から6に見出した。
- これらの成分をアブレーションすると否定感度が崩れ(NESが高くなる)、一方でキャッシュされた肯定的な活性化を再導入(リスキュー)するとNESが増加する。これは、これらのヘッドが単に挙動を元に戻すのではなく、肯定信号を伝える役割を持つことを示しており;結果は xNot360 で異なる。
- 総じて、本研究は GPT-2 における否定の処理が広範ではなく局所的であり、否定形の形式を超えて一貫したパターンを示し、外部ベンチマークへの部分的一般化もあることを示している。