言葉とそれ以上へ：記憶可能性と読書時間の文レベル心理言語学的ノームを探る大規模言語モデル

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルが記憶可能性や読書時間といった文レベルの心理言語学的ノームを推定できるかを調査し、単語レベルのノームに関する先行研究を拡張している。
ゼロショットおよび少数ショットのプロンプトは予測力が一貫していない一方、監督付きファインチューニングは文レベルの特徴について人間のノームと出力を整合させることができる。
ファインチューニングによって、モデルは人間データと相関する推定値を提供し、文レベルの指標に対しては、単純で解釈可能な基準予測子を超えることさえある。
本研究は、LLMのプロンプトを認知的代理指標として利用する際には、プロンプトや設定によって性能が変動するため、慎重さが必要であると警鐘を鳴らしている。

本文: arXiv:2603.12105v1 アナウンスタイプ: new Abstract: 大規模言語モデル（LLMs）は、単語や多語表現に対して、価値性（valence）、覚醒（arousal）、具体性（concreteness）といった心理言語学的ノームの推定を生成し、人間の判断と相関することが最近示されている。これらの推定は、人間の研究で用いられる問いと似た問いをゼロショット方式でLLMに投げることによって得られる。一方、語彙決定時間（lexical decision time）や獲得年齢（age of acquisition）などの他のノームについては、LLMsは地上真値と一致する結果を得るには監督付きファインチューニングが必要である。本論文では、文レベルの文脈における複数語間の関係を含む、これまで未研究であった特徴である「文の記憶可能性」と「読書時間」へこのアプローチを拡張する。これらの結果は、ファインチューニングを経て人間由来のノームと相関する推定値を提供し、解釈可能な基準予測子の予測力を超えることさえあることを示し、LLMが文レベルの特徴について有用な情報を含むことを実証している。同時に、ゼロショットおよび少数ショットの性能は非常に混在しており、LLMプロンプトを人間の認知測定の代理指標として使用する際にはさらなる注意が必要であるという追加の証拠を提供している。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

言葉とそれ以上へ：記憶可能性と読書時間の文レベル心理言語学的ノームを探る大規模言語モデル

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？