The Enforcement and Feasibility of Hate Speech Moderation on Twitter

arXiv cs.CL / 4/15/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 複数言語(8言語)の訓練済みアノテータによって約54万ツイートを注釈し、Xのヘイトスピーチ対策がどれほど一貫して運用されているかをグローバル監査した。
  • 投稿から5か月経過しても、ヘイトと判定されたツイートの約80%がオンラインに残存しており、明確に暴力を含むヘイト表現も含まれていた。
  • ヘイトツイートは非ヘイトツイートと比べて削除されやすさに差がなく、深刻度や可視性の増加によっても除去確率は上がらなかった。
  • 自動検知は偽陽性の増大なしにヘイトを確実に特定できない一方で、人手レビュー向けに「起こりそうな違反」を優先順位付けすることで運用を改善できることを示した。
  • 人×AIのモデレーション・パイプラインをシミュレーションした結果、規制上の罰則に比べて費用を抑えつつヘイトへの接触を大幅に減らすことは経済的に可能であり、残存は技術制約だけでなく制度的なリソース配分の選択が要因だと結論づけている。

Abstract

Online hate speech is associated with substantial social harms, yet it remains unclear how consistently platforms enforce hate speech policies or whether enforcement is feasible at scale. We address these questions through a global audit of hate speech moderation on Twitter (now X). Using a complete 24-hour snapshot of public tweets, we construct representative samples comprising 540,000 tweets annotated for hate speech by trained annotators across eight major languages. Five months after posting, 80% of hateful tweets remain online, including explicitly violent hate speech. Such tweets are no more likely to be removed than non-hateful tweets, with neither severity nor visibility increasing the likelihood of removal. We then examine whether these enforcement gaps reflect technical limits of large-scale moderation systems. While fully automated detection systems cannot reliably identify hate speech without generating large numbers of false positives, they effectively prioritize likely violations for human review. Simulations of a human-AI moderation pipeline indicate that substantially reducing user exposure to hate speech is economically feasible at a cost below existing regulatory penalties. These results suggest that the persistence of online hate cannot be explained by technical constraints alone but also reflects institutional choices in the allocation of moderation resources.

The Enforcement and Feasibility of Hate Speech Moderation on Twitter | AI Navigate