Abstract
人間向けに設計された心理測定(psychometric)質問票を用いて、大規模言語モデル(LLM)の心理的プロファイリングを行うことは広く普及してきました。しかし、その結果として得られたプロファイルが、ユーザーとの現実のやり取りにおいてモデルが示す心理的特性を正確に反映しているのかどうかは、依然として不明です。人間の質問票によってLLMの心理が誤って特徴づけられるリスクを検討するために、本研究では8つのオープンソースLLMについて、2種類のプロファイルを比較します。1つは、確立された質問票(PVQ-40、PVQ-21、BFI-44、BFI-10)に基づく自己報告のリッカート尺度(Likert)スコアです。もう1つは、実世界のユーザー質問に対する、価値観やパーソナリティが含まれた応答の生成確率スコアです。その2つのプロファイルは実質的に大きく異なり、確立された質問票へのLLMの応答が、安定した心理的構成概念(psychological constructs)というよりは望ましい振る舞いを反映していることを示す証拠が得られました。これは、先行研究で主張されていたLLMの一貫した心理的傾性(dispositions)に対する挑戦となります。さらに、確立された質問票は、LLMの人口統計学的バイアス(demographic biases)を過大に誇張してしまうリスクもあります。本結果は、確立された質問票から導かれる心理プロファイルの解釈には慎重であるべきことを示唆するとともに、LLMの心理測定(psychometrics)に対しては、より信頼性の高いアプローチとして生成(generation)に基づくプロファイリングを指し示しています。