SocioEval：基盤モデルにおける社会経済的地位（SES）バイアスを評価するためのテンプレートベースのフレームワーク

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

SocioEvalは、意思決定タスクを用いて基盤モデルにおける社会経済的地位（SES）バイアスを測定することに特化した、テンプレートベースの評価フレームワークである。
このフレームワークでは評価を8つのテーマと18のトピックに整理し、体系的な監査のために6つのクラスペアの組み合わせで240個のプロンプトを生成する。
著者らは3段階のアノテーション手順を用いて、最先端のLLM 13モデルを3,120件の応答に対して評価し、バイアス率に大きなばらつきがあることを確認した（0.42%〜33.75%）。
本研究では、バイアスが意思決定の種類によって異なり、ライフスタイルに関する判断は教育に関する決定と比べて約10倍高いバイアスを示すと報告している。
配備時のセーフガードは明示的な差別を抑制するが、結果はそれらが領域固有のSESステレオタイプに対して脆弱になり得ることを示唆している。SocioEvalは、将来の監査に向けてスケーラブルで拡張可能な枠組みとして位置付けられている。

要旨: 大規模言語モデル（LLM）が、重要な領域における意思決定システムをますます強力に駆動するようになっているため、責任あるAI展開のために、それらのバイアスを理解し、軽減することが不可欠になっています。人種や性別のような属性に関するバイアス評価の枠組みは数多く提案されてきた一方で、社会経済的地位（SES）バイアスは、現実世界での広範な影響にもかかわらず、十分に調査されていないままです。本研究では、意思決定タスクを通じて基盤モデルにおける社会経済的バイアスを体系的に評価するための、テンプレートベースの枠組み「SocioEval」を提案します。階層構造からなる本枠組みは8つのテーマと18のトピックを含み、6つのクラスペアの組み合わせにわたって合計240のプロンプトを生成します。厳密な3段階の注釈プロトコルにより、13の最先端LLMを3,120件の応答で評価し、バイアス率に大きなばらつき（0.42\%-33.75\%）があることを明らかにしました。私たちの結果は、バイアスがテーマごとに異なる形で現れることを示しています。たとえば、ライフスタイルに関する判断は、教育に関連する意思決定よりもバイアスが10倍（10 $\times$ ）高い一方で、展開時のセーフガードは明示的な差別を効果的に防止するものの、領域固有のステレオタイプに対して脆さを示します。SocioEvalは、言語モデルにおけるクラスに基づくバイアスを監査するための、スケーラブルで拡張可能な基盤を提供します。