要旨: 大規模言語モデル(LLMs)は、不確実で逐次的な意思決定の文脈において自律エージェントとしてますます展開されている。
しかし、そのような環境で示される行動が原理的な認知パターンを反映しているのか、それとも表層的なプロンプト模倣に過ぎないのかは依然として十分には理解されていない。
本論文は、GPT-4.1 に3つの社会経済的ペルソナ(Rich、Middle-income、Poor)のいずれかを割り当て、3つの異なる機械設定を有する構造化されたスロットマシン環境に配置した統制実験を提示する。設定は、フェア(50%)、Biased Low(35%)、Streak(連敗後に確率が動的に増加する)である。
条件ごとに50回の独立した反復と6,950件の記録された意思決定を通じて、モデルはカーネマンとトヴァースキーのプロスペクト理論が予測する主要な行動特性を、指示を受けずに再現することを示した。
Poor ペルソナはセッションあたり平均37.4ラウンド(SD=15.5)をプレイしたのに対し、Rich ペルソナは1.1ラウンド(SD=0.31)であり、この差は高度に有意である(Kruskal-Wallis H=393.5, p<2.2e-16)。
ペルソナ別のリスクスコアは大きな効果量を示す(Poor対RichでCohen's d=4.15)。
感情ラベルは意思決定の推進要因というより事後の注釈として機能しているようである(χ^2=3205.4、Cramer's V=0.39)、またラウンド間の信念更新はほとんど無視できる程度である(Poorペルソナの Spearman ρ=0.032、p=0.016)。
これらの知見は、LLMエージェント設計、解釈性研究、および大規模事前学習済み言語モデルに古典的な認知的経済バイアスが暗黙のうちに組み込まれているかというより広い問題へ示唆を与える。
大規模言語モデルにおけるペルソナ条件付リスク行動:GPT-4.1を用いた模擬ギャンブル研究
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は GPT-4.1 に富裕層・中所得層・貧困層の三つの社会経済的ペルソナを割り当て、三つの設定(Fair 50%、Biased Low 35%、損失後に確率が増加するストリーク設定)を備えた構造化スロットマシン環境でテストし、条件ごとに50回の反復を実施して合計6,950回の意思決定を得た。
- 結果は、モデルが指示を受けることなくプロスペクト理論に類似したリスク行動を再現することを示しており、貧困層ペルソナの平均ラウンド数は37.4、富裕層ペルソナの平均は1.1であった(p < 2.2e-16、クラスカル・ワリス検定 H = 393.5)。
- リスクスコアは大きな効果量を示し(Poor vs Rich で Cohen's d = 4.15)、感情ラベルは意思決定の推進要因というより事後注釈であるように見え、ラウンド間での信念更新はほとんど観察されない(Spearman の ρ = 0.032、p = 0.016)。
- 本研究の発見は、LLMエージェント設計、解釈可能性研究、および大規模事前学習済み言語モデルに古典的認知バイアスが暗黙のうちに組み込まれているかという、より広い問題について示唆を与える。

