普遍的なノリはあるのか?SAEsによって言語非依存のインフォーマル・レジスターを発見し制御する
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、多言語LLMが、文化に固有なプラグマティック・レジスター(例:スラング)を、言語に依存しない抽象として表現しているのか、それともSparse Autoencoders(SAEs)を用いてGemma-2-9B-IT上で言語固有の記憶として別々に記憶しているのかを調べる。
- 本研究は、字義的な文脈とインフォーマルな文脈の両方に現れる多義語(polysemous terms)を用いることで、プラグマティック・レジスターと語彙に対する感度を切り分ける新しいプロービング用データセットを導入する。
- 著者らは、少数ではあるが非常に頑健な、言語をまたいだ「コア」のインフォーマル・レジスター特徴を見出し、それが幾何学的に整合したインフォーマル・レジスターのサブスペースを形成しており、より深いモデル層でその明瞭さが増すことを示す。
- 活性化ステアリング(activation steering)により、テストしたすべてのソース言語において出力のフォーマリティに因果的な変化が生じることを示し、さらに異なる系統と言語表記体系(スクリプト)にまたがる未見の6言語へのゼロショット転移も報告する。
- 結果は、多言語LLMがインフォーマル・レジスターを、表層的なヒューリスティックだけではなく、持ち運び可能なプラグマティックな抽象として符号化していることを示す、最初のメカニスティックな証拠として提示される。




