多言語言語モデルは言語構造よりも文字体系(スクリプト)を符号化する
arXiv cs.LG / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多言語言語モデルが内部表現をどのように形成するかを分析し、それが抽象的な言語の同一性/類型論(typology)によって整理されているのか、それとも表層形(surface-form)の手がかり、例えば表記(orthography)によって組織化されているのかを検証する。
- 言語活性化確率エントロピー(LAPE)指標とスパース自己符号化器(Sparse Autoencoders)を、圧縮して蒸留した Llama-3.2-1B および Gemma-2-2B のコンパクト版に適用したところ、表記が表現構造を支配していることが分かった。
- ローマ字化(romanization)は、ネイティブの文字体系入力とも英語ともよく整合しない、ほぼ互いに交わらない内部表現をもたらし、表層形の変化に対する強い感度を示している。
- 語順のシャッフル(並べ替え)は、内部の「言語に関連するユニット」がどれだけ活性化されるかに与える影響が限定的であり、類型論的な語順がユニットの同一性を主に決めているわけではないことを示唆する。
- 研究では、類型論的情報がより深い層でよりアクセスしやすくなる一方、因果的介入(causal interventions)によれば生成は、表層形の摂動に不変なユニットにより依存しており、類型論的整合だけで選ばれたユニットにはより依存しないことが示される。


