多義性か多意味か？言語的アイデンティティが重畳（スーパーポジション）指標を混乱させる

arXiv cs.CL / 2026/4/3

📰 ニュース

共有:

要点

本論文は、見かけ上の「重畳」ニューロンの重なりが、同一の表層語形（例：「bank」）が異なる意味を活性化することによる語彙的な混同（lexical confounds）によって水増しされうる、と主張している。これは、本当に無関係な概念を圧縮しているのではなく、意味の切替が生じているだけの場合がある。
2×2の要因分解（2x2 factorial decomposition）を用いることで、語彙のみの重なりの信号が、意味のみの重なりの信号よりも、110Mから70Bパラメータまでの各モデルで一貫して大きいことを見いだす。
この語彙的な混同は疎な自己符号化器（sparse autoencoders）にも現れ、18〜36%の特徴が複数の意味を混ぜ合わせている。さらに、それは活性化次元のうち小さいが無視できない割合（≤1%）を説明する。
語彙成分を取り除くと、語義曖昧性解消（word sense disambiguation）が改善し、知識の編集（knowledge edits）もより選択的になる。報告された統計的根拠としてp = 0.002が示されている。
これらの結果は、重畳指標が「言語的アイデンティティ」の効果を明示的に考慮し、重なりを機構的な圧縮（mechanistic compression）に誤って帰属しないようにすべきだことを示唆する。