緊急時の警察ディスパッチにおけるAIの人口統計バイアス監査:11の大規模言語モデルのクロスリンガル評価

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、緊急時の警察ディスパッチにおける人口統計バイアスを評価するため、LLMの監査フレームワークを提案し、警察優先度ディスパッチシステムを5段階の順序分類タスクとして定式化しています。
  • 19,800件の出力(11の最先端LLM)を、シナリオ対、人口統計の手がかりタイプ(宗教的外見、性別、人種)、および2言語(英語と北京語)にわたって分析した結果、バイアスは事件の重大度が曖昧な場合に系統的に現れ、通話内容から優先度が明確な場合は概ね減少することが示されました。
  • バイアスの強さは属性ごとに異なり、最も大きい影響は宗教的外見で、その次が性別、最後が人種であり、リスクは属性間で一様ではないことが示されています。
  • 別言語間での非対称性も確認され、性別バイアスは北京語で増幅される一方、人種バイアスは英語でより顕著であり、さらに一部のシナリオでは逆方向の効果も見られて単純なステレオタイプ増幅の説明では捉えにくい結果になっています。
  • 著者らは、バイアスはモデル単体の固定的な性質ではなく、人口統計的手がかり・文脈上の曖昧さ・言語の相互作用として生じると主張し、候補モデルを実運用前に評価するためのスケーラブルな監査基盤も提示しています。

Abstract

大規模言語モデル(LLM)は、緊急通報のトリアージや配車判断の意思決定支援など、高いリスクを伴う公共安全システムに急速に組み込まれつつある。しかし、この文脈における人口統計学的公平性は、ほとんど検証されていない。ここでは、警察優先配車システム(Police Priority Dispatch System)を5段階の順序分類タスクとして実装する、異言語監査(cross-lingual audit)の枠組みを導入し、人口統計学的手がかりの効果を切り分けるための、制御された最小対(controlled minimal-pair)設計を適用する。英語とマンダリン中国語という2言語、3つの人口統計学的カテゴリ(宗教的外見、性別、人種)、15のシナリオペア、11の最先端モデルにまたがる19,800件のモデル出力を対象として分析した結果、事件の重大度が曖昧な場合に人口統計学的バイアスが系統的に現れる一方、通報内容によって運用上の優先度が明確に決定される場合には、そのバイアスは概ね消失することが分かった。バイアスの大きさは人口統計の軸によって異なり、最も大きな影響が宗教的外見で観測され、次いで性別、そして人種であった。決定的に重要な点として、このバイアスは言語間で一貫して転移しない。すなわち、性別バイアスはマンダリン中国語で大幅に増幅されるのに対し、人種バイアスは英語でより顕著であり、集約分析では見えにくい異言語間の非対称性が明らかになる。複数のシナリオでは、人口統計学的手がかりが逆方向の効果を生み出し、モデル挙動を説明する単純なステレオタイプ増幅(stereotype-amplification)アカウントに疑問を投げかける。これらの知見は、LLMベースの配車におけるバイアスが、モデルそれ自体の固定的な性質として生じるのではなく、人口統計学的シグナル、文脈上の曖昧さ、そして言語の相互作用によって生じることを示唆している。これらの実証的結果に加えて、提案する枠組みは、実運用への導入前に、管轄(jurisdiction)に関連するシナリオで候補モデルを評価できる、拡張可能な監査インフラストラクチャを提供する。