大規模言語モデルはテキスト注釈に用いられると人種的ステレオタイプを再現する

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

4百万を超える注釈判断を含む2つの実験にわたり19のLLMを大規模に評価したところ、自動化されたテキスト注釈は、中立的なテキストに注釈を付ける場合でも体系的に人種的ステレオタイプを反映することが示された。
39タスクにまたがる名前ベースの実験では、黒人に関連する名前を含むテキストは、多くのモデルによってより攻撃的でよりおしゃべりだと評価され、一方でアジア系の名前はより知的だと認識されるが自信に欠け、社交性が低いと見なされた。
方言実験では、同じ文をアフリカ系アメリカ人の口語英語（African American Vernacular English, AAVE）で書いたものは、ほぼ全てのモデルによって、より専門的ではなく、教育を受けた話者を示す指標としても不適切で、より有害で、より怒っていると評価された。
これらの知見は、LLMsを自動注釈者として用いることが、研究・統治・意思決定を支えるデータセットや測定値に社会的に規定された偏見を組み込む可能性があることを示唆しており、ファインチューニングは時に少数派名の応募者の採用可能性を過剰に補正してしまうことがある。

要旨: 19の大規模言語モデル（LLMs）と総計400万件を超える注釈判断を含む2つの実験を通じて、テキストに埋め込まれた微妙なアイデンティティの手掛かりが、結果として注釈結果を人種的ステレオタイプを反映する形で体系的に偏らせることを示しています。39の注釈タスクを横断する名前ベースの実験では、黒人に関連する名前を含むテキストは、19モデル中18モデルによってより攻撃的と評価され、18モデルがよりうわさ好きだと評価します。アジア系の名前はバンブー・シーリングに相当するプロファイルを生み出す。19モデル中17モデルが個人をより知的だと評価し、18モデルが自信が低く、社交性が低いと評価する。アラブ系の名前は認知的評価の向上と対人関係の評価低下を同時に引き起こし、4つの少数派グループはすべて一貫して自己規律が低いと評価される。方言を合わせた実験では、同じ文がアフリカ系アメリカン英語（African American Vernacular English）で書かれた場合、標準アメリカ英語よりもかなり専門的でないと評価される（すべての19モデル、平均差 $-0.774$ ）、教育を受けた話者を示す指標性が低い（ $-0.688$ ）、より有害性が高い（18/19）、より怒っていると評価される（19/19）。名前ベースの採用可能性には著しい例外が生じ、ファインチューニングが過剰に補正され、少数派名の応募者を体系的に有利に評価する可能性がある。これらの発見は、LLMsを自動注釈者として使用することが、研究・統治・意思決定をますます支えるデータセットや測定結果に、社会的にパターン化された偏見を直接埋め込む可能性があることを示唆しています。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

大規模言語モデルはテキスト注釈に用いられると人種的ステレオタイプを再現する

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer