アイデンティティに向けたユーモアを通じたLLMの反事実的(カウンターファクト)な不公平性の調査
arXiv cs.CL / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ユーモアを通して学習データから身につけた社会的な前提を映し出すという観点から、LLMにおける反事実的な不公平性を調査します。
- 3つのタスク(ユーモア生成の拒否、話者意図の推論、関係的/社会的影響の予測)を対象に、アイデンティティに依存しないユーモアとアイデンティティに基づく侮辱的ユーモアの両方を扱う枠組みを提案しています。
- 研究者は、話者や宛先のアイデンティティを入れ替えたときの非対称な挙動を定量化する解釈可能なバイアスメトリクスを導入します。
- 先端のLLMを用いた実験では、特権的話者に帰属するジョークに対して拒否が最大67.5%多くなる、悪意が64.7%多く判断される、社会的害の評価が5点満点で最大1.5点高くなるといった一貫した格差が示されます。
- これらの結果は、生成モデルが「配慮(センシティビティ)」と「ステレオタイプ」を同時に持ちうることを示唆し、公平性や文化的整合の取り組みを複雑にすると結論づけています。




