概要: 大規模言語モデル(LLM)におけるバイアスと公平性のリスクは、導入(デプロイメント)の状況によって大きく異なる一方で、既存の手法には、適切な評価指標を選択するための体系的な指針が欠けています。私たちは、モデルとプロンプトの集団によって特徴づけられるLLMの利用事例を、タスクの種類、プロンプトに保護属性の言及が含まれるかどうか、ならびに利害関係者の優先事項に基づいて、関連するバイアスおよび公平性の指標へと対応づける意思決定フレームワークを提示します。このフレームワークは、毒性、ステレオタイプ、反事実的不公平、ならびに配分(割当)上の害を扱い、ステレオタイプ分類器およびテキスト類似度指標の反事実的適応に基づく新しい指標を導入します。実用的な導入のために、オープンソースのPythonライブラリ\texttt{langfair}を公開します。5つのLLMと5つのプロンプト集団にまたがる利用事例に対して行った大規模な実験により、公平性リスクはベンチマーク性能だけからは信頼できる形で評価できないことが示されました。あるプロンプトデータセットで得られた結果は、別のプロンプトデータセットにおけるリスクを過大評価または過小評価している可能性が高く、したがって公平性の評価は、特定の導入状況に根差して行われるべきであることが強調されています。
「プロンプト持ち込み」:用途(ユースケース)に応じたLLMのバイアスと公平性評価
arXiv cs.CL / 2026/5/4
💬 オピニオンTools & Practical UsageModels & Research
要点
- この論文は、LLMのバイアスや公平性リスクが導入(デプロイ)文脈によって大きく変わる一方で、適切な評価指標の選び方に関する体系的な指針が不足していると主張しています。
- 提案される意思決定フレームワークは、モデルとプロンプト母集団によって特徴づけられるユースケースと、タスク種別、プロンプト内に保護属性の言及があるか、そして利害関係者の優先度に基づいて、適切なバイアス/公平性指標を対応づけます。
- フレームワークは、毒性、ステレオタイピング、反実仮想的な不公平、配分(アロケーション)上の害といった複数のリスク領域を扱い、ステレオタイプ分類器やテキスト類似度の反実仮想的な適用に基づく新しい指標も導入しています。
- 著者らは実装しやすくするためのオープンソースPythonライブラリlangfairを公開しています。
- 5つのLLMと5つのプロンプト母集団に対する広範な実験により、ベンチマーク性能だけから公平性リスクを信頼して評価するのは難しく、あるプロンプトデータセットでの結果は別のケースでリスクを過大または過小に見積もり得ることが示されています。



