スパース自己符号化器と、大規模言語モデルに関するホリズム

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルが「メタセマンティック」な見方、すなわち単語や複雑な表現が意味を獲得する仕組みに関する捉え方を含意しているのかどうかを問いかける。
LLMが分布意味論を通じて意味をホリスティックに捉える、という先行する議論を概観しつつ、機械論的解釈可能性がその見方に挑戦し得る点を指摘する。
さらに、スパース自己符号化器による近年の知見を紹介し、LLMの埋め込み空間内に解釈可能な潜在特徴が多数存在することを示す。そのことが、意味をより分解的に解釈することを動機づける。
著者はその後、これらの特徴の性質を分析し、関連する特徴が数え上げ可能であれば、ホリズムはなお成立し得ると結論づける。

Abstract

大規模言語モデル（LLM）技術は、すなわち、語や複雑な表現がそれらが持つ意味をどのようにして獲得するのかを示すような、メタ意味論的な描像——つまりそのような図——を示唆しているのでしょうか？ひとつ控えめなアプローチでは、LLMが言語表現の意味を捉える方法に組み込まれているように見える前提を探り、それをそれらのもっともらしさを考えるための手がかりとします（Grindrod, 2026a, 2026b）。これまで、分布意味論の一形態を用いることで、LLMは意味に関する一種のホーリズム（全体論）を採用している、という議論がなされてきました（Grindrod, 2023; Grindrod et al., forthcoming）。しかし、近年の機械論的解釈可能性（mechanistic interpretability）に関する研究は、これらの議論に対する挑戦を突きつけています。具体的には、LLMが用いる高次元空間の中で、解釈可能な潜在特徴が膨大な種類として発見されたことが、ホーリズム的な解釈に対して潜在的な異議を唱える可能性があります。本論文では、まずLLMがある種のホーリズムを体現していると考えるに至った当初の理由を示します（第1節）。その後、スパースオートエンコーダによって生成される特徴に関する最近の研究を導入し、そのような特徴の発見がどのようにして意味についての代替的な分解的描像を示唆するのかを説明します（第2節）。次に、第3節において、そのような特徴の性質をより詳細に検討することで、この挑戦に応答します。最後に、第4節でGrindrodらが擁護するホーリズム的描像に立ち返り、特徴が数え上げ可能であるならば、その描像は依然として成り立つと論じます。