LLM表現の固有次元（Intrinsic Dimension）を用いた言語現象の複雑性プロファイルの追跡

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、LLM内部表現の固有次元（ID）を言語的複雑性の定量的な指標として探究する。
具体的には、協応（coordination）と従属（subordination）、右分岐（right-branching）と中心埋め込み（center-embedding）、曖昧でない／曖昧な係り受け（attachment）といった、（心理）言語学で知られる複雑性の対比が、層ごとのIDの差として反映されるかを検証する。
6種類の異なるLLMでの実験の結果、複雑な言語現象ほどIDプロファイルが一貫して高くなることが示される。
IDの差が現れる層やタイミングは言語的対比ごとに異なり、ピークも異なる段階で到達する。
代表表現の類似性（representational similarity）や層プルーニング（layer pruning）を用いた追加検証により、同様の傾向が裏付けられ、IDが複雑性のタイプを区別し得る指標であることが示唆される。