大規模言語モデル（LLMs）における道徳判断の性別・代名詞バイアスの広範な影響

arXiv cs.CL / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、文法上の人称・数・性別のマーカーがLLMの道徳判断にどのような影響を与えるかを調査し、6つのモデルファミリ全体にわたる偏見を明らかにした。
ETHICS からの550のバランスの取れた基本文を用い、研究者らは代名詞と人口統計的マーカーを変えることで意味的に等価な14,850のバリアントを作成し、統計的パリティ差で公平性を測定した。
主要な発見は、単数形および三人称の文がより公正と判断される傾向があり、二人称形は不利に評価され、性別マーカーが最も強い影響を及ぼすことを示しており、非二元の主語が有利、男性の主語が不利である。
著者らは、これらの偏りはトレーニング分布およびアラインメントの偏りを反映していると示唆し、道徳的なLLM展開におけるターゲットを絞った公平性介入を求めている。

要旨：大規模言語モデル（LLMs）は道徳的または倫理的な発言を評価するためにますます使用されているが、それらの判断は社会的および言語的バイアスを反映する可能性がある。この研究は、文レベルでの統制された研究として、文法的人称、数、および性別マーカーがLLMの公正性の道徳的分類にどのように影響するかを示す。ETHICSデータセットから550の均衡した基礎文を出発点として、各アイテムにつき26の反事実的バリエーションを生成し、代名詞と人口統計マーカーを系統的に変化させ、意味的に同等な14,850文を得た。我々は六つのモデルファミリを評価した（Grok、GPT、LLaMA、Gemma、DeepSeek、Mistral）、統計的平等差（SPD）を用いて公正性判断とグループ間格差を測定した。結果は統計的に有意なバイアスを示す：単数形で書かれ、三人称の文は「公正」と判断されることが多い一方、二人称の文は不利に扱われる。性別マーカーは最も強い影響を生み出し、非二元の主体が一貫して好まれ、男性の主体は不利とされた。我々は、訓練中に学習された分布的およびアライメントのバイアスを反映していると推測し、道徳的なLLMアプリケーションにおけるターゲットを絞った公正性介入の必要性を強調する。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

大規模言語モデル（LLMs）における道徳判断の性別・代名詞バイアスの広範な影響

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer