「IYKYK(でもAIは違う)」:自動コンテンツモデレーションは、取り戻した言葉に対するコミュニティの多様な態度を捉えられない
arXiv cs.CL / 2026/4/21
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 論文は、既存のAIベースのコンテンツモデレーションが、取り戻し(reclaimed)に用いられるスラングと憎悪目的の用法を確実に区別できず、結果としてマイノリティの声が抑圧されうることを示している。
- 研究では、LGBTQIA+、Black、womenのコミュニティを対象に、取り戻されたスラング(例:f-word、n-word、b-word)に関する注釈付きコーパスを作成し、定量・定性の分析を行った。
- 注釈ではコミュニティ内の当事者間でも合意度が低く、文脈の細かな要素によって解釈が大きく左右されるため、取り戻しスラングの捉え方が強く主観的であることが示された。
- Perspective API による自動的なヘイトスピーチ判定との対応が不十分であり、注釈者の判断は「侮辱的かどうか」や「当人自身への向けられか」といったテキスト特徴との関連が強いことが報告されている。
- 半構造化インタビューから、実体験や個人的な経歴の違いが解釈のばらつきを生む要因であることが示され、現行の自動モデレーションの限界が浮き彫りになった。




