Brain Scoreは言語の共通特性を追跡する:多様な自然言語と構造化シーケンスの証拠

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、fMRIを用いた読み取り時の脳活動を言語モデルの活性から予測するBrain Score(BS)フレームワークにより、ニューラル言語モデルの処理が人間の言語処理に似ているかを検証する。
  • 多様な言語系統に属する多くの自然言語で学習したモデルは、BSの性能が非常に近いことが示される。
  • ヒトのゲノム、Python、入れ子の括弧のみで構成された純粋な階層構造といった非言語の構造化データで学習したモデルも、BSで良好な成績を示し、ときに自然言語に近い結果になる。
  • 総じて、BSは自然言語に共通する構造をモデルがどれだけ抽出できているかを浮かび上がらせる一方、高いBSスコアだけから人間らしい処理を推論するには感度が不足している可能性がある。

Abstract

ニューラルネットワークを用いた言語モデル(LM)に関する最近のブレークスルーにより、次の疑問が提起された。すなわち、これらのモデルの処理は、人間の言語処理にどの程度似ているのか? いわゆるBrain Score(BS)と呼ばれる枠組みによる結果――LMの活性から読字中のfMRI活性を予測する――が、高い類似性を主張するために用いられてきた。こうした類似性を理解するために、我々は、さまざまな種類の入力データでLMを学習し、それらをBSで評価する実験を行う。その結果、多くの異なる言語系統に属するさまざまな自然言語で学習されたモデルは、非常に類似したBS性能を示す。さらに、他の構造化データ――ヒトのゲノム、Python、純粋な階層構造(入れ子になった括弧)――で学習されたLMも、かなり良好に機能し、場合によっては自然言語にかなり近い。これらの発見は、BSが自然言語間に共通する構造を抽出する言語モデルの能力を際立たせ得ることを示唆するが、一方で、その指標は、BSスコアが高いという事実だけから人間らしい処理を推論できるほどには十分に感度が高くない可能性がある。