司法判断支援のための大規模言語モデルにおける認知バイアスの評価: 善良な被害者効果と名声ベースのハロー効果

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 司法判断支援のための大規模言語モデルが人間と同様の認知バイアスを示し、司法の量刑決定に影響を与える可能性を調査し、善良な被害者効果と名声ベースのハロー効果に焦点を当てる。
  • 訓練データの想起を避けるよう変更されたビネットを用い、各操作を分離するために複数回の試行で5つの代表的なLLMを評価した。
  • 結果は、善良な被害者効果がより大きいこと、隣接同意に対するペナルティは統計的に有意でないこと、ハロー効果は人間と比較してわずかに低下しており、資格に基づく名声が最大の低下を示した。
  • モデル間のばらつきがあるにもかかわらず、現行の司法利用は制限されており、注意とバイアス緩和の必要性を強調して、人間のベンチマークと比較して控えめな改善にとどまった。

本文: arXiv:2603.10016v1 Announce Type: cross 要旨: 大規模言語モデル(LLMs)が人間に似た認知バイアスを示すかどうかを調査し、公正性が極めて重要な司法の刑罰決定支援における潜在的影響に焦点を当てます。最も関連性の高いバイアスとして、善良な被害者効果(VVE)と名声ベースのハロー効果を選択しました。LLMsが訓練データを想起するのを避けるため、過去の文献から改変したビネットを使用し、他のすべての詳細を一定に保つことで各操作を分離し、結果の差を百分率で測定します。条件ごとに独立した複数回の試行で、5モデルを代表的なLLMsとして評価しました(ChatGPT 5 Instant、ChatGPT 5 Thinking、DeepSeek V3.1、Claude Sonnet 4、Gemini 2.5 Flash)。研究は、善良な被害者効果がより大きく、隣接同意に対するペナルティは統計的に有意ではなく、ハロー効果は人間と比較してわずかに低下していることを発見しました。ただし資格に基づく名声では大きな低下が見られました。モデル間のばらつきや出力の違いにもかかわらず、現状の司法利用は制限されているが、人間のベンチマークと比較して控えめな改善にとどまりました。