Abstract
同定可能な被害者効果(IVE) - 相当する困難に直面する統計的に特徴づけられた集団よりも、物語として記述された特定の被害者により大きな資源を配分しがちであるという傾向 - は、道徳心理学および行動経済学における最も頑健な知見の一つである。大規模言語モデル(LLM)が、人道的トリアージ、助成金の自動評価、コンテンツモデレーションといった領域で重要な役割を担うようになる中で、重大な問いが生じる。すなわち、これらのシステムは、人間の道徳的推論に内在する情動的な非合理性を継承しているのだろうか。私たちは、LLMにおけるIVEについて、初めてとなる体系的・大規模な実証的調査を提示する。そこでは、9つの組織的系統(Google、Anthropic、OpenAI、Meta、DeepSeek、xAI、Alibaba、IBM、Moonshot)にまたがる16のフロンティアモデルに対して、N=51,955件の検証済みAPI試行を実施する。Smallら(2007)およびKogutとRitov(2005)からの代表的パラダイムを移植し拡張する10本の実験の組合せを用いて - その結果、IVEは広く見られるものの、整合(アラインメント)訓練によって強く調整されることが分かる。指示チューニングされたモデルでは極端なIVE(Cohenのd 最大1.56)が観察される一方、推論特化型モデルでは効果が反転する(d 最小 -0.85)。集計された効果(d=0.223, p=2e-6)は、LeeとFeeley(2016)が報告した単一被害者の人間のメタ分析ベースライン(d
\approx0.10)の約2倍であり、集団被害者の人間の効果がほぼゼロであることを踏まえると、全体としての人間の集計効果をさらに大きな差で上回っている可能性が高い。標準的なChain-of-Thought(CoT)プロンプト - 熟慮のための是正としての役割とは裏腹に - は、IVEの効果量をほぼ3倍に増やす(d=0.15からd=0.41へ)。一方で、功利主義的なCoTのみが確実にそれを打ち消す。さらに私たちは、心理物理的な鈍麻、完全な数量無視、そして限界的な内集団/外集団の文化的バイアスを記録し、人道および倫理的意思決定の文脈におけるAIの展開に対する含意を示す。