AI Navigate

名前が判決を左右する時:介入の一貫性がLLMの意思決定における体系的バイアスを明らかにする

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ICE-Guardは、介入の一貫性テストを適用してLLMが偽特徴への依存を検出するフレームワークを紹介します。3,000件のビネットを横断する10の重要分野で、8ファミリーから11のLLMを評価します。
  • 本研究はデモグラフィック(名前・人種の置換)、権威性(資格・名声の置換)、およびフレーミング(肯定的/否定的な言い換え)の3つのバイアスタイプを特定し、権威バイアス(平均5.8%)とフレーミングバイアス(5.0%)がデモグラフィックバイアス(2.2%)を大幅に上回ることを明らかにします。
  • バイアスの濃度は分野ごとに異なり、金融分野では権威バイアスが22.6%、刑事司法分野ではわずか2.8%でした。
  • LLMが特徴を抽出し、決定を行う決定論的ルーブリックを用いる構造化分解アプローチは、反転率を最大で100%削減し、9モデルにおける中央値は49%でした。
  • ICEガイド付きの検出-診断-緩和-検証ループは、反復的なプロンプトパッチを介して約78%のバイアス削減を達成し、COMPAS再犯データに対する検証は、このベンチマークが現実世界のバイアスを保守的に見積もることを示唆します。コードとデータは公開されています。

要旨: 大規模言語モデル(LLMs)はますます重要な意思決定に用いられているが、偽の特徴への感受性は未だ十分には特徴づけられていない。ICE-Guardという介入の整合性テストを適用するフレームワークを導入し、偽の特徴依存の3種類を検出する: 人口統計的特徴(名前/人種の置換)、権威性(資格/名声の置換)、フレーミング(肯定的/否定的な言い換え)。10の高リスク領域にまたがる3,000件の事例を横断して、8ファミリーから11のLLMを評価し、次のことを見出した。 (1) 権威バイアス(平均5.8%)とフレーミングバイアス(5.0%)は、人口統計バイアス(2.2%)を大幅に上回り、分野の人口統計に対する狭い焦点に挑戦している。 (2) バイアスは特定の領域に集中しており、金融分野では権威バイアスが22.6%、刑事司法ではわずか2.8%である。 (3) 構造化分解では、LLMが特徴を抽出し、決定論的ルーブリックが判断することで、フリップ率を最大で100%削減することができる(9モデルの中央値は49%)。ICEガイドによる検出-診断-緩和-検証のループを実演し、反復的なプロンプトパッチ適用を通じて累積的な偏り削減を78%達成。実データCOMPAS再犯データとの検証は、COMPAS由来の反転率が統合された合成率を上回ることを示し、我々のベンチマークが現実世界の偏りを保守的に見積もることを示唆している。コードとデータは公開されています。