大規模言語モデルにおける交差的な公正性（Intersectional Fairness）

arXiv cs.CL / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2つのベンチマークデータセットからの曖昧文脈と明確化文脈を用いて、6つの大規模言語モデルの交差的な公正性を評価する。
曖昧文脈ではモデルの全体的な性能が高い一方で、予測がまばらまたは「不明」になりやすいため、公正性指標の有効性が低下しバイアスを捉えにくい。
明確化文脈では、精度がステレオタイプとの整合性に影響され、正解がステレオタイプを支持する場合は正答しやすく、逆に否定する場合は正答しにくい。
ステレオタイプへの方向的な偏りは特に人種×性別の交差で強く現れ、一部で観測される格差が小さく見えても、サブグループの公正性指標では交差グループ間での出力分布の不均衡が示される。
繰り返し実行では、ステレオタイプに整合した回答を含む一貫性のばらつきも確認され、評価対象のいずれのLLMも交差的な設定で一貫して信頼できる／公正な振る舞いを示していないと結論づける。