アイデンティティに向けたユーモアを通じたLLMの反事実的(カウンターファクト)な不公平性の調査

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ユーモアを通して学習データから身につけた社会的な前提を映し出すという観点から、LLMにおける反事実的な不公平性を調査します。
  • 3つのタスク(ユーモア生成の拒否、話者意図の推論、関係的/社会的影響の予測)を対象に、アイデンティティに依存しないユーモアとアイデンティティに基づく侮辱的ユーモアの両方を扱う枠組みを提案しています。
  • 研究者は、話者や宛先のアイデンティティを入れ替えたときの非対称な挙動を定量化する解釈可能なバイアスメトリクスを導入します。
  • 先端のLLMを用いた実験では、特権的話者に帰属するジョークに対して拒否が最大67.5%多くなる、悪意が64.7%多く判断される、社会的害の評価が5点満点で最大1.5点高くなるといった一貫した格差が示されます。
  • これらの結果は、生成モデルが「配慮(センシティビティ)」と「ステレオタイプ」を同時に持ちうることを示唆し、公平性や文化的整合の取り組みを複雑にすると結論づけています。

Abstract

ユーモアは社会的認識の鏡となります。私たちが面白いと感じるものは、多くの場合、私たち自身がどのような存在であり、他者をどのように判断するのかを反映しています。言語モデルがユーモアに関わるとき、その反応は、学習データから内在化してきた社会的前提をあぶり出します。本論文では、話し手と宛先(話しかけられる相手)を入れ替えても他の要因を一定に保つことで、モデルの応答がどのように変化するかを観察し、ユーモアを通じた反実仮想的不公平(counterfactual unfairness)を調査します。提案する枠組みは3つのタスクから成ります。すなわち、ユーモア生成の拒否、話し手の意図の推定、そして関係的/社会的影響の予測です。これらは、アイデンティティに依存しないユーモアと、アイデンティティに特化した侮辱的ユーモアの双方を対象とします。さらに、アイデンティティの入れ替えにおける非対称なパターンを捉える、解釈可能なバイアスメトリクスを導入します。最先端モデルにまたがる実験により、一貫した関係的な格差が明らかになりました。特権的な話し手が語るジョークは、最大67.5%より多く拒否され、悪意があると判断される頻度は64.7%より高く、社会的害の5点尺度における評価は最大1.5点高くなります。これらの傾向は、生成モデルにおいて「感受性」と「ステレオタイプ化」が共存していることを示し、公平性や文化的整合性に向けた取り組みを複雑にします。