「IYKYK（でもAIは違う）」：自動コンテンツモデレーションは、取り戻した言葉に対するコミュニティの多様な態度を捉えられない

arXiv cs.CL / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、既存のAIベースのコンテンツモデレーションが、取り戻し（reclaimed）に用いられるスラングと憎悪目的の用法を確実に区別できず、結果としてマイノリティの声が抑圧されうることを示している。
研究では、LGBTQIA+、Black、womenのコミュニティを対象に、取り戻されたスラング（例：f-word、n-word、b-word）に関する注釈付きコーパスを作成し、定量・定性の分析を行った。
注釈ではコミュニティ内の当事者間でも合意度が低く、文脈の細かな要素によって解釈が大きく左右されるため、取り戻しスラングの捉え方が強く主観的であることが示された。
Perspective API による自動的なヘイトスピーチ判定との対応が不十分であり、注釈者の判断は「侮辱的かどうか」や「当人自身への向けられか」といったテキスト特徴との関連が強いことが報告されている。
半構造化インタビューから、実体験や個人的な経歴の違いが解釈のばらつきを生む要因であることが示され、現行の自動モデレーションの限界が浮き彫りになった。

Abstract

リクレイム（再利用）された蔑称の使用は、多くのマイノリティ化されたコミュニティにとって、オンライン上で一般的で意味のある実践である。これは連帯、アイデンティティ、そして共有された経験の源となる。しかし、オンライン・コンテンツに対する現代的な自動化およびAIベースのモデレーション・ツールの多くは、リクレイムされた用法と憎悪（ヘイト）のための用法を区別できない。その結果、マイノリティの声が抑圧される。本研究では、量的・質的手法を用いて、LGBTQIA+、ブラック（黒人）コミュニティ、女性コミュニティにおけるソーシャルメディア利用者の態度を調べる。対象は、焦点グループに対して向けられるリクレイムされた蔑称（f-word、n-word、b-word）である。これらのコミュニティに属するソーシャルメディア利用者とともに、注釈付きのオンライン蔑称使用コーパスを収集し分析する。このコーパスには、蔑称を含むオンライン文がヘイトスピーチとしてフラグ付けされるべきかどうかに関する注釈者の認識、ならびに蔑称使用の文脈的特徴が含まれている。すべてのコミュニティおよび注釈の質問において、注釈者間の一致度が低いことが観察され、同一グループ内の注釈者の間でも大きな意見の相違があることを示している。さらに、アイデンティティや意図の明確な文脈的手がかりが欠けている場合には、同一グループに属するメンバーであっても、オンライン上でのリクレイムされた蔑称使用の解釈について意見が分かれうるという事実が、この問題をさらに強めている。注釈者への半構造化インタビューでは、現実における経験の違いや個人的な経歴が、このばらつきに寄与していることが示唆される。注釈者の判断と、Perspective APIによって生成された自動のヘイトスピーチ評価との間には、対応の不良が見られる。加えて、テキストの特定の特徴、たとえば蔑称使用が侮辱的（derogatory）であるかどうか、また蔑称が自分自身に向けられているかどうかといった点は、注釈者がその文をヘイトスピーチとして報告するかどうかとより強く関連していることを確認する。これらの結果は、マイノリティ化されたコミュニティがオンライン上の蔑称を解釈する方法には、本質的な主観性と文脈性があることを浮き彫りにする。