要旨: 大規模言語モデル(LLMs)はテキスト生成の流暢さという点で印象的な結果を得ていますが、その言語知識の性質—特に内部語彙の人間らしさの程度—は依然として不確かです。本研究は、人間とLLMが生成した語の連想を比較し、モデルが人間の語彙パターンをどれだけ正確に捉えているかを評価します。SWOWデータセットからの英語の「刺激-反応」ペアと、三つのLLM(Mistral-7B、Llama-3.1-8B、Qwen-2.5-32B)によって複数の温度設定で新たに生成された連想を用い、(i) 語彙要因(語の頻度、具体性)などが刺激-反応ペアに与える影響、(ii) 人間の反応と比較したLLMの反応のばらつきと典型性を検討します。
結果は、すべてのモデルが頻度と具体性について人間の傾向を映し出すものの、反応のばらつきと典型性には差があることを示しています。Qwenのような大規模モデルは、単一の「典型的な」人間参加者を模倣する傾向があり、非常に典型的だが変動が最小限の反応を生成します。一方、MistralやLlamaのような小型モデルは、よりばらつきがあるものの典型性が低い反応を生み出します。温度設定はこのトレードオフにさらに影響を与え、温度が高いほどばらつきが増し、典型性は低下します。これらの知見は、人間の語彙とLLMの語彙の類似点と相違点の両方を浮き彫りにし、LLMの語彙表現を検証する際にはモデルサイズと温度を考慮する必要があることを強調しています。
返却形式: {"translated": "翻訳されたHTML"}


