温度変動下における人間の語彙表現のモデリング: 言語的要因、多様性とLLMの単語連想における典型性

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は SWOWデータセットと3つのLLM（Mistral-7B、Llama-3.1-8B、Qwen-2.5-32B）を用い、複数の温度設定を横断して人間とLLM生成の単語連想を比較した。
語彙的要因（語の頻度と具体性）が、人間とモデルの手掛かり-応答ペアにどのように影響するかを検討した。
結果は、すべてのモデルが頻度と具体性について人間の傾向を反映する一方で、応答の変動性と典型性には差があり、より大きなモデルほど高度に典型的で変動性の低い応答を出すことを示した。
温度設定はこのトレードオフを、変動性を高めつつ典型性を低下させることで調整し、サンプリング温度が語彙表現をどのように形作るかを浮き彫りにしている。
本研究は、LLMの語彙表現を検討し、人間データと比較する際にはモデルサイズと温度の考慮が重要であることを強調している。

要旨: 大規模言語モデル（LLMs）はテキスト生成の流暢さという点で印象的な結果を得ていますが、その言語知識の性質—特に内部語彙の人間らしさの程度—は依然として不確かです。本研究は、人間とLLMが生成した語の連想を比較し、モデルが人間の語彙パターンをどれだけ正確に捉えているかを評価します。SWOWデータセットからの英語の「刺激-反応」ペアと、三つのLLM（Mistral-7B、Llama-3.1-8B、Qwen-2.5-32B）によって複数の温度設定で新たに生成された連想を用い、(i) 語彙要因（語の頻度、具体性）などが刺激-反応ペアに与える影響、(ii) 人間の反応と比較したLLMの反応のばらつきと典型性を検討します。
結果は、すべてのモデルが頻度と具体性について人間の傾向を映し出すものの、反応のばらつきと典型性には差があることを示しています。Qwenのような大規模モデルは、単一の「典型的な」人間参加者を模倣する傾向があり、非常に典型的だが変動が最小限の反応を生成します。一方、MistralやLlamaのような小型モデルは、よりばらつきがあるものの典型性が低い反応を生み出します。温度設定はこのトレードオフにさらに影響を与え、温度が高いほどばらつきが増し、典型性は低下します。これらの知見は、人間の語彙とLLMの語彙の類似点と相違点の両方を浮き彫りにし、LLMの語彙表現を検証する際にはモデルサイズと温度を考慮する必要があることを強調しています。

返却形式: {"translated": "翻訳されたHTML"}

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

温度変動下における人間の語彙表現のモデリング: 言語的要因、多様性とLLMの単語連想における典型性

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？