人間の心理測定式質問票はLLMの心理を誤って特徴づける：生成挙動からの証拠

Abstract

人間向けに設計された心理測定（psychometric）質問票を用いて、大規模言語モデル（LLM）の心理的プロファイリングを行うことは広く普及してきました。しかし、その結果として得られたプロファイルが、ユーザーとの現実のやり取りにおいてモデルが示す心理的特性を正確に反映しているのかどうかは、依然として不明です。人間の質問票によってLLMの心理が誤って特徴づけられるリスクを検討するために、本研究では8つのオープンソースLLMについて、2種類のプロファイルを比較します。1つは、確立された質問票（PVQ-40、PVQ-21、BFI-44、BFI-10）に基づく自己報告のリッカート尺度（Likert）スコアです。もう1つは、実世界のユーザー質問に対する、価値観やパーソナリティが含まれた応答の生成確率スコアです。その2つのプロファイルは実質的に大きく異なり、確立された質問票へのLLMの応答が、安定した心理的構成概念（psychological constructs）というよりは望ましい振る舞いを反映していることを示す証拠が得られました。これは、先行研究で主張されていたLLMの一貫した心理的傾性（dispositions）に対する挑戦となります。さらに、確立された質問票は、LLMの人口統計学的バイアス（demographic biases）を過大に誇張してしまうリスクもあります。本結果は、確立された質問票から導かれる心理プロファイルの解釈には慎重であるべきことを示唆するとともに、LLMの心理測定（psychometrics）に対しては、より信頼性の高いアプローチとして生成（generation）に基づくプロファイリングを指し示しています。

人間の心理測定式質問票はLLMの心理を誤って特徴づける：生成挙動からの証拠

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer