多義性か多意味か? 言語的アイデンティティが重畳(スーパーポジション)指標を混乱させる
arXiv cs.CL / 2026/4/3
📰 ニュース
要点
- 本論文は、見かけ上の「重畳」ニューロンの重なりが、同一の表層語形(例:「bank」)が異なる意味を活性化することによる語彙的な混同(lexical confounds)によって水増しされうる、と主張している。これは、本当に無関係な概念を圧縮しているのではなく、意味の切替が生じているだけの場合がある。
- 2×2の要因分解(2x2 factorial decomposition)を用いることで、語彙のみの重なりの信号が、意味のみの重なりの信号よりも、110Mから70Bパラメータまでの各モデルで一貫して大きいことを見いだす。
- この語彙的な混同は疎な自己符号化器(sparse autoencoders)にも現れ、18〜36%の特徴が複数の意味を混ぜ合わせている。さらに、それは活性化次元のうち小さいが無視できない割合(≤1%)を説明する。
- 語彙成分を取り除くと、語義曖昧性解消(word sense disambiguation)が改善し、知識の編集(knowledge edits)もより選択的になる。報告された統計的根拠としてp = 0.002が示されている。
- これらの結果は、重畳指標が「言語的アイデンティティ」の効果を明示的に考慮し、重なりを機構的な圧縮(mechanistic compression)に誤って帰属しないようにすべきだことを示唆する。