普遍的なノリはあるのか？SAEsによって言語非依存のインフォーマル・レジスターを発見し制御する

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、多言語LLMが、文化に固有なプラグマティック・レジスター（例：スラング）を、言語に依存しない抽象として表現しているのか、それともSparse Autoencoders（SAEs）を用いてGemma-2-9B-IT上で言語固有の記憶として別々に記憶しているのかを調べる。
本研究は、字義的な文脈とインフォーマルな文脈の両方に現れる多義語（polysemous terms）を用いることで、プラグマティック・レジスターと語彙に対する感度を切り分ける新しいプロービング用データセットを導入する。
著者らは、少数ではあるが非常に頑健な、言語をまたいだ「コア」のインフォーマル・レジスター特徴を見出し、それが幾何学的に整合したインフォーマル・レジスターのサブスペースを形成しており、より深いモデル層でその明瞭さが増すことを示す。
活性化ステアリング（activation steering）により、テストしたすべてのソース言語において出力のフォーマリティに因果的な変化が生じることを示し、さらに異なる系統と言語表記体系（スクリプト）にまたがる未見の6言語へのゼロショット転移も報告する。
結果は、多言語LLMがインフォーマル・レジスターを、表層的なヒューリスティックだけではなく、持ち運び可能なプラグマティックな抽象として符号化していることを示す、最初のメカニスティックな証拠として提示される。

Abstract

多言語言語モデルは言語間で事実的・統語的な知識をうまく転移する一方で、スラングのような文化固有の語用論的レジスターを、それぞれ言語固有の記憶として孤立して処理しているのか、それとも統一された抽象概念として処理しているのかは依然として不明です。そこで本研究では、3つの類型論的に多様な出発言語（英語、ヘブライ語、ロシア語）にわたってSparse Autoencoders（SAEs）を用いることで、Gemma-2-9B-ITの内部表象を精査します。語用論的レジスター処理を、些細な語彙的な感度から決定的に切り離すために、各ターゲット語が多義的であり、文字通りの文脈と非公式な文脈の両方に現れる新しいデータセットを導入します。その結果、非公式レジスターのシグナルの多くは言語固有の特徴に分散しているものの、ごく小さいながらも非常に頑健な言語横断の中核が一貫して立ち現れることがわかります。この共有された中核は、幾何学的に首尾一貫した「非公式レジスター部分空間」を形成し、モデルのより深い層で鮮明になります。重要なのは、これらの共有表象が単なる相関的なものではないことです。これらの特徴によるアクティベーション・ステアリングは、すべての出発言語にわたって出力のフォーマリティを因果的に変化させ、さらにゼロショットで、多様な言語系統と文字体系にまたがる6つの未見の言語へと転移します。これらの結果は、多言語LLMが非公式レジスターを、表面的な経験則としてだけ内在化しているのではなく、携帯可能な言語非依存の語用論的抽象として内在化していることを示す、最初のメカニズム的証拠を提供します。