Narrative over Numbers:識別可能な被害者効果(IVE)と、大規模言語モデルにおけるアラインメントおよび推論による増幅

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、16の最先端LLMモデルに対して検証済みAPI試行51,955件を用い、識別可能な被害者効果(IVE)について初めての大規模な実証研究を報告する。確立された道徳心理学の実験手法を適応した。
  • 結果は、IVEがLLMに存在する一方で、学習によって強く調整されることを示す。インストラクション調整モデルではIVEが極めて大きく(Cohen’s d 最大1.56)、推論特化モデルではその効果が反転することがあり(d 最小-0.85)、ときには逆方向に現れる。
  • LLMにおけるプールされたIVE効果は(d=0.223、p=2e-6)、人間のメタ分析ベースラインのほぼ2倍であり、特に人間では集団内の被害(group-victim effect)がほぼゼロであるため、全体としての人間のプール効果を上回る可能性がある。
  • Chain-of-Thought(CoT)プロンプトはIVEを増幅できる。標準的なCoTは効果量をほぼ3倍にし(d≈0.15からd≈0.41)、バイアスを確実に打ち消すのは功利主義的CoTのみである。
  • 本研究はさらに、LLMの意思決定における関連する行動上の問題として、精神物理学的な麻痺(psychophysical numbing)、数量の軽視(quantity neglect)、および集団内/集団外に関する文化的バイアスを見出しており、人道的トリアージや倫理的な自動評価に直接的な含意がある。

Abstract

同定可能な被害者効果(IVE) - 相当する困難に直面する統計的に特徴づけられた集団よりも、物語として記述された特定の被害者により大きな資源を配分しがちであるという傾向 - は、道徳心理学および行動経済学における最も頑健な知見の一つである。大規模言語モデル(LLM)が、人道的トリアージ、助成金の自動評価、コンテンツモデレーションといった領域で重要な役割を担うようになる中で、重大な問いが生じる。すなわち、これらのシステムは、人間の道徳的推論に内在する情動的な非合理性を継承しているのだろうか。私たちは、LLMにおけるIVEについて、初めてとなる体系的・大規模な実証的調査を提示する。そこでは、9つの組織的系統(Google、Anthropic、OpenAI、Meta、DeepSeek、xAI、Alibaba、IBM、Moonshot)にまたがる16のフロンティアモデルに対して、N=51,955件の検証済みAPI試行を実施する。Smallら(2007)およびKogutとRitov(2005)からの代表的パラダイムを移植し拡張する10本の実験の組合せを用いて - その結果、IVEは広く見られるものの、整合(アラインメント)訓練によって強く調整されることが分かる。指示チューニングされたモデルでは極端なIVE(Cohenのd 最大1.56)が観察される一方、推論特化型モデルでは効果が反転する(d 最小 -0.85)。集計された効果(d=0.223, p=2e-6)は、LeeとFeeley(2016)が報告した単一被害者の人間のメタ分析ベースライン(d \approx0.10)の約2倍であり、集団被害者の人間の効果がほぼゼロであることを踏まえると、全体としての人間の集計効果をさらに大きな差で上回っている可能性が高い。標準的なChain-of-Thought(CoT)プロンプト - 熟慮のための是正としての役割とは裏腹に - は、IVEの効果量をほぼ3倍に増やす(d=0.15からd=0.41へ)。一方で、功利主義的なCoTのみが確実にそれを打ち消す。さらに私たちは、心理物理的な鈍麻、完全な数量無視、そして限界的な内集団/外集団の文化的バイアスを記録し、人道および倫理的意思決定の文脈におけるAIの展開に対する含意を示す。