制御された実験においてLLMを人間の代替として評価する

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、既存の調査実験における人間の応答と、オフ・ザ・シェルフなLLMの生成応答を直接比較し、LLMが行動実験で人間の代替になり得るかを検証します。
  • 人間の観察結果は構造化されたプロンプトに変換され、モデルはタスク固有の学習なしで、0〜10の1つのアウトカム変数(精度知覚)を出力します。
  • 人間データと合成データの双方に同一の統計解析を適用し、実験推論の公平な比較を可能にしています。
  • その結果、LLMは人間で観測されるいくつかの「向き(方向性)」の効果を再現する一方で、効果量やモデレーション(調整)パターンはモデルごとに異なることが示されます。
  • 総じて、統制された条件下ではLLM生成データが集計的な信念更新の傾向を捉えられるものの、人間と同じスケールの効果を一貫して再現できるわけではない、と結論づけています。

要旨: 大規模言語モデル(LLM)は、行動研究において人間の応答をシミュレートするためにますます利用されている一方で、LLMが生成したデータが、いつ人間データと同じ実験的推論を支持するのかは依然として不明である。われわれは、汎用のLLMによって生成された応答を、精度知覚に関する代表的な調査実験における人間の応答と、直接比較することでこの点を評価する。各人間の観測は構造化されたプロンプトに変換され、モデルはタスク固有の訓練なしで、単一の0〜10の結果変数を生成する。人間および合成応答に同一の統計解析を適用する。われわれは、LLMが人間で観測されるいくつかの方向性の効果を再現することを見出したが、効果の大きさと調整(モデレーション)のパターンはモデル間で異なる。したがって、汎用のLLMは、統制された条件下での集計的な信念更新パターンは捉えるものの、人間規模の効果と一貫して一致するわけではない。これにより、LLMが生成したデータが行動上の代理(サロゲート)として機能しうるのはいつかが明確になる。